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Presentación 


Ejercicios y casos prácticos con datos de corte transversal para la iniciación a la 
econometría está planteado para ser un manual complementario en la preparación 
de la asignatura Fundamentos de Econometría, en los grados de Administración de 
Empresas, Finanzas y Contabilidad, y Economía. Para acceder a las muestras de 
datos con las que trabajaremos en algunos ejercicios del manual, pulse aquí. 

Cabe advertir que, en ningún caso, el presente material sustituye a la biblio¬ 
grafía básica, la cual es estrictamente necesaria seguir para preparar con garantías 
el examen final de la asignatura. Dicha bibliografía básica se compone de los si¬ 
guientes manuales: 

• Matilla, Mariano, Pedro Pascual y Basilio S. Camero. 2013. Econometría 
y predicción. UNED: McGraw Hill. 

• Wooldridge, Jeffrey M. 2010. Introducción a la econometría. Un enfoque 
moderno. 5. a edición. México: Cengage Learning Editores. 
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0. Introducción al análisis 
estadístico con Gretl 


La asignatura Fundamentos de Econometría contiene sesiones de laboratorio 
impartidas en aulas de informática. En estas sesiones se introduce al alumnado 
en el análisis de regresión de variables económicas a través de la resolución de 
ejercicios y problemas con Microsoft Excel o el programa informático Gretl 
(Gnu Regression, Econometrics and Time-series Library). Este último programa, 
desarrollado por Allin Cottrell de la Universidad de Wake Forest, permite llevar 
a cabo análisis estadísticos y estimaciones de modelos econométricos. Gretl no 
solo presenta una interfaz visual muy intuitiva que permite realizar de forma 
sencilla multitud de análisis cuantitativos, sino que también contiene un conjunto 
de bases de datos de muestra procedentes de diversos manuales de econometría 
(Ramanathan 2002, Wooldridge 2010, Stock y Watson 2012, Verbeek 2008, entre 
otros). 

Gretl es software libre y puede descargarse en http://gretl.sourceforge.net/. 

A modo de resumen, en la siguiente tabla se presentan las instrucciones Gretl 
que emplearemos con mayor frecuencia en las sesiones de laboratorio de la 
asignatura: 


Tabla 0.1. Resumen de instmcciones Gretl. 



Cargar datos de muestra 


Archivo /Abrir archivo de datos / 
Archivo de muestra... 


Importar archivos extemos de distintos Archivo / Abrir archivo de datos / 
formatos, como csv (.csv), ascii (.txt), Archivo de usuario... 

Excel (.xls, .xlsx), Stata (.dta), entre otros 


Indicar al software qué tipo de datos se Datos /Estructura de datos... 

van a utilizar: datos de sección cmzada, 
series de tiempo, o datos de panel 
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Descripción 

Ruta 

Obtener estadísticos principales de una 
variable aleatoria (media, mediana, 
mínimo, máximo, desviación típica, 
coeficiente de variación, coeficiente de 
asimetría y coeficiente de exceso de 
curtosis) 

Click derecho sobre el nombre de la 
variable /Estadísticos principales... 

Obtener la distribución de frecuencias de 
una variable 

Click derecho sobre el nombre 
de la variable / Distribución de 
frecuencias... 

Obtener la matriz de correlaciones entre 
dos o más variables 

Seleccionando dos o más variables 
(mientras se pulsa Ctrl)/ Click derecho 
sobre el nombre de las variables / 

Matriz de correlaciones 

Obtener la representación del diagrama 
de dispersión o gráfico X-Y 

Ver / Gráficos / Gráfico X-Y (scatter) 

Estimar un modelo por mínimos 
cuadrados ordinarios 

Modelo /Mínimos Cuadrados 

Ordinarios 

Para más información, el propio software ofrece una Guía del Usuario en el 
menú Ayuda de la barra de herramientas. 

Práctica 0 


EJERCICIO 0.1. El fichero «Data_Valencia_pisos.gdt» contiene información 
sobre una muestra aleatoria de 387 pisos en venta en Valencia, extraída de Nestoria 
(www.nestoria.es) el 15 de abril del 2018. En concreto, disponemos de datos sobre 
el precio de venta en miles de euros (precio), el tamaño de la vivienda expresado 
en metros cuadrados (m2), así como el número de dormitorios (dormitorios). 

a) Indique qué estructura de datos presenta el archivo (datos de corte transver¬ 
sal, series temporales o datos de panel). ¿Por qué? 

b) Represente e interprete la distribución de frecuencias de la variable precio. 

c) Calcule e interprete los estadísticos descriptivos de las variables precio y 

m2. 

d) Represente e interprete un diagrama de dispersión (gráfico X-Y) que mues¬ 
tre la relación entre las variables precio y m2. 

e) Calcule e interprete la correlación entre las variables precio, m2 y dormito¬ 
rios. 
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1. El modelo de regresión 
simple 

La relación y = f (x) puede estudiarse a través de un modelo econométrico 
simple: 

(regresando o variable dependiente) (regresor o variable independiente) 

t t 

y=Pv + P l x + u 

(error o perturbación aleatoria: aquellos 
factores inobservables distintos de x que 
afectan a y) 

Por un lado, el parámetro de la constante [í {] indica el valor que toma y, cuando 
x = 0. Por otro lado, el parámetro de la pendiente proporciona información sobre 
cuánto varía y ante cambios de x, cuando permanecen invariables otros factores que 
pueden influir sobre y (ceteris paribus ).* Para que esto último sea así, es necesario 
que pueda asumirse la independencia de u ante cambios de x (supuesto de media 
condicionada nula): 


A=- 

P1 Ax 


Au=0 


Si g(u|x)=g(a)=0 


Consecuentemente, la función de regresión poblacional (frp) relaciona 
linealmente el promedio de y, E (y), para los distintos valores de x que presentan 
los individuos de una población: E (y\x ) = [í () + /? ] x. 


1. El modelo es lineal en los parámetros /?. Es decir, /> recoge el cambio de y ante un cambio unitario de x, 
independientemente del nivel de x. 
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Figura 1.1. Función de regresión 


Objetivo: evaluar el vínculo entre y y x mediante la estimación de los 
parámetros poblacionales fí (] y fi x (fijos, pero desconocidos) a partir de un conjunto 
de observaciones de una muestra: 

1. Utilizamos una muestra aleatoria de la población, {(y., x.):i = 1,2 

2. Especificamos un modelo lineal en los parámetros /?, para cada observación 
i de la muestra: y =P 0 + P x x¡+ u { . 

3. Estimamos la función de regresión muestral (frm) del modelo: y=fi 0 + /i / x | . 

Métodos de estimación: A continuación, se presenta el método de los 
momentos (mm) y el método de mínimos cuadrados ordinarios (mco). Dado que, 
en nuestro marco de trabajo, ambos métodos de estimación llegan al mismo 
resultado, en los ejercicios presentados a continuación se pedirá habitualmente 
estimar por mco . 2 


2. Existen otros métodos de estimación, como el de máxima verosimilitud (mv), que consiste en seleccionar el 
valor de los parámetros que maximiza la probabilidad de obtener las observaciones muéstrales. En los mo¬ 
delos lineales, la estimación por mv, la cual cumple las propiedades asintóticas deseables bajo condiciones 
más generales, también coincide con la obtenida por mco para muestras grandes. 
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Método de los momentos (mm). Deseamos encontrar estimaciones de los 
parámetros poblacionales /? 0 y f$ x que cumplan las siguientes dos restricciones: 


Momentos poblacionales 


Versiones muéstrales de los momentos 



( 1 ) 

( 2 ) 


Figura 1.2 Valores observados (y¡) versus estimados (ft) 

Nota: La representación de los valores observados en un 
gráfico de dispersión X-Y suele recibir el nombre de nube 
de puntos. 


Al mismo resultado llegamos a través del método de mínimos cuadrados 
ordinarios! mco). Este método estima /? (i y minimizando la suma de los residuos 
al cuadrado: min £?=i(u¡) 2 = min £” =1 (y¡ - fi 0 - P\ x i) donde las condiciones de 

Pofíl PO>Pl 

primer orden (cpo) son, respectivamente, el análogo muestral de los momentos 
poblacionales (1) y (2): 


dZUyi-h-P^i) 2 _ Q ^ 

ah 

aiAi(y,-Ío-íi*¡) 2 _ 0 ^ 
d Pi 


-2 Z”=i(y¡ -0o- &*;) = o 
-2I” = i*¡(yí -Po - P\Xl) = 0 


Po = y- Pi* 

* - X) (y¿ - y) 

Pí HM-x ) 2 


Por tanto, cada observación i = 1, 2,..., n la variable y. podrá expresarse como 
la suma de su predicción según la frm (y.) y su residuo («.): y.=y. + ü . 
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Propiedades numéricas de la frm: 


i. (i) ¿I?=i(y¿ -Po-PiXi) = ° -» Ef=iü ¡ = 0 

2 - (2) “ x ¿ £?=i(y¿ - A> - A*¿) = 0 “» Sf=i *¿N = o 


t = l ''•¿“i 


3. y = y porque y = y + ü (donde ü = 0 por (1) y y = /? 0 + fi\X) 

4. La FRM se encuentra sobre el punto ( x, y) 

5. Por (1) y (2), I” =1 y¿ü¿ = 0. 

Bondad de ajuste: El coeficiente de determinación ( R 2 ) nos permite conocer 
cómo de bien se ajusta nuestra frm a la nube de puntos observados de y de la 
muestra. En términos más formales, R 2 indica qué proporción de la variabilidad 
muestral total exhibida por y viene explicada por x: 

fi 2 = — = 1 _ — ; 0 < R 2 < 1 (cuando mayor i? 2 , mejor es el ajuste del modelo) 

<ji L ai L 

2 

donde stc es la suma total de cuadrados, Xr=i(y¡ — y) 

_ 2 

sec es la suma explicada de cuadrados, £P=i(y¡ — y) 

sce es la suma de los residuos al cuadrado, £- l =1 ü¡ 2 

La siguiente tabla muestra las distintas formas funcionales, lineales en los pará¬ 
metros, con las que podemos trabajar, así como sus principales características. 
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Tabla 1.1. Formas funcionales en el análisis de regresión. 
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Práctica 1A 

Ejercicio 1A.1 



La siguiente tabla muestra, para un conjunto de hoteles de una localidad, el precio 
por noche de una habitación y el número medio de habitaciones ocupadas al día. 

i Precio (euros/noche) 

Número de habitaciones ocupadas 

i 

35 

150 

2 

100 

20 

3 

90 

50 

4 

115 

10 

5 

70 

100 

6 

60 

130 

7 

50 

180 

8 

80 

100 


Considere que deseamos explicar la relación entre la demanda hotelera y el 
precio a través del modelo: 

Q.= fí 0 +P X P¡ + u. con i = 1, 2, 8 hoteles 

donde Q representa el número de habitaciones ocupadas, y P es el precio por 
noche de la habitación. Con la información proporcionada, complete las siguientes 
tareas con la ayuda de Excel. 

a) Represente e interprete un diagrama de dispersión (gráfico X-Y) que muestre 
la relación entre las dos variables (explicada y explicativa). 

b) Utilice el procedimiento de mínimos cuadrados ordinarios (mco) para 
estimar la función de regresión muestral del modelo planteado e interprete 
los valores estimados de la constante y de la pendiente. 

c) De acuerdo con su estimación, ¿en cuánto se estima que varía la demanda 
hotelera si el precio de la habitación aumenta en 10 euros por noche? 

d) Estime el número medio de habitaciones ocupadas para los niveles de precios 
observados en la muestra y, posteriormente, calcule los residuos. Además, 
compruebe si la suma de los residuos es aproximadamente 0. 

é) ¿Qué proporción de la variabilidad muestral de la demanda es explicada por 
el precio? 
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f) En base a la función de regresión muestral obtenida, ahora prediga el número 
medio de habitaciones que se ocuparían si se fijase un precio de 75 euros por 
noche. 

g ) A partir de la función de regresión obtenida, calcule la elasticidad precio de 
la demanda para un precio de 75 euros por noche. 4 

h) Plantee un modelo que permita obtener directamente la elasticidad (constante) 
precio de la demanda, y explique qué parámetro en dicho modelo sería la 
elasticidad. 


Ejercicio 1A.2 

El fichero «Data_Gapminder_2010.gdt» contiene información extraída de 
Gapminder (Fres material from www.gapminder.org) referente al 2010 para 247 
países sobre distintas variables macroeconómicas, tales como el producto interior 
bruto (pib), expresado en dólares per cápita, y la esperanza de vida, en años. 

a) Represente el diagrama de dispersión (gráfico X-Y) con el pib en el eje 
horizontal y la esperanza de vida en el eje vertical. ¿Qué tipo de relación 
diría que existe entre la esperanza de vida y el pib? 

b) En base al gráfico anterior, ahora plantee el modelo econométrico que mejor 
pueda describir la relación existente entre ambas variables y estímelo por 

MCO. 

c) Interprete los parámetros estimados de la función de regresión muestral 
basada en el modelo planteado. 


Ejercicio 1A.3 

Busque en la red una muestra de datos de corte transversal para dos variables de 
índole económico-empresarial que crea que puedan estar relacionadas. 5 Utilizando 
dicha muestra de datos, realice las siguientes tareas: 

a) Utilizando Excel, guarde en columnas las dos variables, nombrándolas y 
ordenándolas, junto a una variable índice i= 1, 2, ... , N para representar la 
dimensión de corte transversal (p. ej., personas, países, hogares, empresas, 
etc.). No olvide indicar la fuente de donde se han obtenidos los datos, así 
como el significado de cada variable y sus unidades de medida. 


4. Recuerde que la elasticidad precio de la demanda se define como eí = — - • - donde — = B, en la re- 

M y P AP q ap 

gresion. 

5. Posibles fuentes de datos: Gapminder (www.gapminder.org), Goolzoom (www.goolzoom.es), Instituto Na¬ 
cional de Estadística (www.ine.es), Eurostat (https://ec.europa.eu/eurostat/data/database), oecd (https:// 
stats.oecd.org/), World Bank (https://data.worldbank.org/), unctadstat (https://unctadstat.unctad.org/), 
faostat (http://www.fao. org/faostat/en/#data), otros (https://www.economicsnetwork.ac.uk/links/sources, 
https://db.nomics.world/). 
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b) Utilice la teoría económica o el razonamiento lógico para justificar qué 
variable es la dependiente, Y, y cuál la explicativa, X. 

c) Importe el archivo Excel a Gretl y represente e interprete la distribución de 
frecuencias y los estadísticos descriptivos de la variable dependiente que se 
pretende explicar (véase la solución del ejercicio 0.1). 

d) Utilizando Excel o Gretl, calcule e interprete el coeficiente de correlación 
entre las variables seleccionadas (véase la solución del ejercicio 0.1). 

é) Utilizando Excel o Gretl, represente e interprete un diagrama de dispersión 
(gráfico X-Y) que muestre la relación entre las dos variables (véase la 
solución del ejercicio 0.1). 

f) En base al gráfico anterior, ahora plantee el modelo econométrico que mejor 
pueda describir la relación existente entre ambas variables y, posteriormente, 
estímelo por mco utilizando Excel. Muestre los cálculos efectuados en Excel 
en detalle y razone su respuesta (véase la solución del ejercicio 1A.1). 

g ) ¿Qué proporción de la variabilidad muestral de la variable dependiente es 
explicada por el regresor? Use Excel para responder, y muestre los cálculos 
efectuados con detalle. 


Ejercicio 1A.4 

El fichero «Data_cons_inc.xlsx» contiene información procedente de Eurostat 
(Oficina Europea de Estadística, referencia: non-financial transactions, «nasq_10_ 
nf_tr») sobre el consumo (consumo) y la renta disponible (rentad) en 2016, ambas 
expresadas en millones de euros, de 15 países europeos. 


i Países 

consumo (p) 

rentad (x) 

1. Alemania 

1.674.394 

1.970.801 

2. Austria 

186.225 

213.596 

3. Bélgica 

216.574 

241.024 

4. Dinamarca 

131.609 

139.498 

5. España 

644.719 

700.113 

6. Finlandia 

119.005 

127.195 

7. Francia 

1.232.883 

1.425.435 

8. Grecia 

121.737 

114.009 

9. Irlanda 

90.847 

94.739 

10. Italia 

1.022.411 

1.137.017 
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i Países 

consumo (y) 

rentad (x) 

11. Luxemburgo 

16.037 

20.071 

12. Países Bajos 

310.692 

337.048 

13. Portugal 

121.335 

128.768 

14. Reino Unido 

1.577.330 

1.626.064 

15. Suecia 

205.911 

235.318 


a) Utilice la muestra aleatoria de tamaño n= 15 para estimar por mco el siguiente 
modelo: 

consumo. = fj } + // rentad. + u. donde i = 1,2, ... , 15. 

Interprete los parámetros estimados de la constante y la pendiente. Según 
la estimación, ¿en cuánto se predice que variará el consumo si la renta 
disponible aumenta en un millón de euros? 

b) De acuerdo con las estimaciones obtenidas, calcule el consumo predicho 
cuando la renta disponible es de 50.000 millones de euros. 

c ) En base a los resultados estimados, represente gráficamente y comente el 
comportamiento de las siguientes medidas en relación a la renta disponible: 


• El consumo estimado, cons 

• La propensión marginal a consumir estimada, PMgC = 

coxis 

• La propensión media al consumo estimada, PMEC = —- 

d) Obtenga de Eurostat u otra fuente de información una segunda muestra 
de datos de corte transversal del mismo tamaño (n = 15) sobre consumo y 
renta. Indique si es posible validar los resultados obtenidos en los apartados 
anteriores. 


Práctica IB 


Ejercicio 1B.1 

Empleando una muestra aleatoria de 1.573 individuos españoles en el 2012 
procedente de la European Social Survey (www.europeansocialsurvey.org), se ha 
obtenido el siguiente modelo estimado que relaciona el nivel de bienestar de los 
individuos con su edad: 
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log (happy) = 2,255- 0.037 log (age) 

n= 1573 y R 2 =0,002 


donde happy es una variable que recoge la puntuación del 1 al 11 que responden 
los individuos encuestados a la pregunta: ¿cuánto de feliz es usted?; y age se 
refiere a los años de edad que tienen los individuos al responder la encuesta. 

a) Interprételos valores estimados de la constante y el coeficiente asociado a 
log (age). 

b) Indique qué otras variables podrían influir en la felicidad de los individuos 
y explique si alguna/s de ellas podría/n estar correlacionadas con la edad. 
Si esto último pudiese ocurrir, ¿podríamos confiar en los resultados de la 
regresión simple del enunciado? ¿por qué? 


Ejercicio IB. 2 

El fichero «Data_salarios2014ESP.gdt» contiene información sobre los salarios 
percibidos (variable salbase, expresada en euros/mes) y los años de antigüedad 
en la empresa (antig) para el 2014 sobre una muestra de trabajadores que residen 
y trabajan en España. Dicha información ha sido extraída de la Encuesta de 
Estructura Salarial del ine. 

a) Calcule la media y la desviación estándar tanto del salario como del número 
de años de antigüedad de los trabajadores de la muestra. 

b) ¿Cuál es la proporción de individuos de la muestra que tienen menos de un 
año de antigüedad en la empresa (antig < 1)?, ¿cuál es el número máximo de 
antigüedad en la muestra? 

c) Estime el siguiente modelo de regresión: salbase = /? 0 + antig + u, y 
exponga los resultados de la función de regresión muestral. Según la 
estimación, interprete el término constante y la pendiente. 

d) Según el modelo anteriormente estimado, ¿qué proporción de la variabilidad 
muestral exhibida por el salario viene explicada por la antigüedad? 

e) Plantee y estime un modelo de regresión que permita predecir la variación 
porcentual salarial ante cada año adicional de antigüedad. Interprete el 
término constante e indique cuál sería el incremento porcentual estimado 
del salario ante un aumento de la antigüedad en 15 años. 

f) Plantee y estime un modelo de regresión que permita obtener directamente 
la elasticidad de los salarios ante cambios en la antigüedad. Interprete el 
término constante, e indique cuál sería el incremento porcentual estimado 
del salario si se duplica la antigüedad. 
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Ejercicio IB. 3 


La base de datos «Data_RD_scoreboard.gdt» (fuente: R&D Scoreboard de 
la Comisión Europea: http://iri.jrc.ec.europa.eu/scoreboardl6.html) contiene 
información sobre las 2.500 empresas que más invierten en investigación y 
desarrollo en el mundo. Para la muestra de empresas mencionada, las variables 
rd y sales representan, respectivamente, los gastos en I+D y las ventas, ambas en 
millones de euros, para el año 2015. 

a) Plantee un modelo econométrico que permita obtener la variación del gasto 
en I+D en millones de euros ante cambios porcentuales de las ventas. 

b) Utilizando la base de datos descrita, estime ahora el modelo planteado. 
Presente las ecuaciones estimadas de la forma habitual e interprete sus 
resultados. 

c) ¿Cómo cambiarían los resultados del punto b ) si el gasto en I+D se expresase 
en euros, en lugar de en millones de euros? 
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2. El modelo de regresión 
múltiple 

Considere ahora un modelo de regresión lineal múltiple (rlm) con k regresores: 

J = fi 0 + A*! + Pl X 2 +•' •+ P k X k + U 

donde el cumplimiento del supuesto de media condicionada nula E (u \ x v x 2 , 
x ) = E (u) = 0 garantiza la validez de las estimaciones de los parámetros de 
pendiente. En cualquier caso, a diferencia del modelo lineal simple, el parámetro 
¡3 (j = 1,2,..., k) del modelo rlm recoge el efecto parcial de x sobre y, manteniendo 
contantes el resto de regresores distintos ax que se consideran en el modelo ( ceteris 
paribus ): 


Pi = 


A y 


Ax 1 


Ax 2 =0,..., Axk=0 

Au=0 <- Si E(u\x 1 , x 1 ,...,Xj c )=E(u)=0 


De nuevo, a partir de una muestra de datos para y. y los x, podemos obtener 
los valores estimados de los parámetros ¡3 , ¡3, ..¡3 utilizando los métodos mm o 

MCO. 

Advertencia: Incorporar más regresores en el modelo 1 SCE y t R 2 . Por este 
motivo, el R 2 no debe utilizarse para decidir si hay que añadir uno o más regresores 
al modelo. El criterio que debe seguirse para ello es la inferencia estadística 
(sección 3). 

Supuestos Gauss-Markov del modelo rlm con datos de corte transversal: 

• RLM1. Linealidad en los parámetros /3 (los [3 son únicamente elevados al). 

• RLM2. Muestra aleatoria de observaciones para la y y las x. 

• RLM3. Media condicionada nula, E (u \ x , x ,..., x )=E (u)= 0. Independencia 
entre las x y todos los demás factores inobservables que pueden explicar y 
(contenidos en u). 

• RLM4. No colinealidad perfecta: (a) ninguna variable explicativa es 
constante para i, y (b) las variables explicativas no están perfectamente 
correlacionadas. 
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RLM5. Homoscedasticidad: var (u | x p x 2 , ..., x k )= a 2 —► var (u \ x v x v ..., 
x k ) = o 2 


El cumplimiento de los RLM1 -4 garantiza la propiedad estadística de insesgadez 
del estimador mco (E[/3] = /j), mientras que el RLM5 se añade para garantizar la 
propiedad estadística de eficiencia (relativa) del estimador mco (min var (J!$) entre 
todos los estimadores lineales insesgados). 

La omisión de una variable explicativa relevante en el modelo puede 
comprometer el RLM3 y provocar que el estimador mco esté sesgado. La inclusión 
de una variable irrelevante en el modelo no provoca sesgo, pero puede reducir la 
eficiencia (relativa). 

La eficiencia (relativa) o precisión del estimador mco disminuirá cuando: 

0-2 • T la varianza del error, E(u — E(u)') = a 2 

t var(Pj ) — • J, la varianza mucstral de x¿ SCE¡ — Zr=i(x í; - - x¡) 2 

• T el grado de colinealidad entre Xj y las otras x’s, Rf. 


Práctica 2A 


Ejercicio 2A.1 

De los siguientes modelos, indique cuál/es cumple/n la hipótesis de linealidad 
en los parámetros y, por tanto, podría/n estimarse por el método de mínimos 
cuadrados ordinarios (mco): 


a) y = p 0 + Pi x + u 

b) logiy) = p 0 + p x x + u 

c) y = p 0 + yfPÍ x + u 

d ) y = e^x^e 11 

e ) y = P i + p 2 x + p 3 x 2 + u 

f) y = Pi + P2 Q) + u 


Ejercicio 2A. 2 

Considere el modelo de regresión lineal múltiple que presentamos a 
continuación: 


y = Po+Pi x l + P 2 X 2 +u 
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Asumiendo que se cumple el supuesto de media condicionada nula: 


a) Indique cuál es la variación esperada en y si x { aumenta en 5 unidades y x 2 se 
mantiene constante. 

b ) Indique cuál es la variación esperada en y si x 2 disminuye 3 unidades y x x se 
mantiene constante. 

c ) Indique cuál es la variación esperada en y si x x aumenta en 5 unidades y x 2 
disminuye en 3 unidades. 


Ejercicio 2A. 3 

La base de datos «Data_Palma_Mallorca_alquileres. gdt» contiene información 
extraída Nestoria (https://www.nestoria.es/) el 27 de agosto del 2018 sobre una 
muestra de pisos en alquiler situadas en Palma de Mallorca. Utilice la base de 
datos para estimar el modelo econométrico que se plantea a continuación: 

precio = fj } + fj to2 + ¡3 2 dormitorios + fj dist_centro + u 

donde precio es el precio de alquiler expresado en euros mensuales, m2 la 
superficie útil del piso expresada en metros cuadrados, dormitorios^ s el número 
de dormitorios, dist_centro es la distancia con respecto al centro de la ciudad 
(expresada en kilómetros), y u representa el término de error. 

a) Presente la ecuación estimada de la forma habitual e indique qué porcentaje 
de la variación en el precio de alquiler viene explicado por la superficie, el 
número de dormitorios y la distancia con respecto el centro. 

b ) Indique cuál sería la variación estimada en el precio de alquiler del piso con 
un dormitorio adicional, manteniendo fija la superficie del piso y la distancia 
con respecto el centro. Interprete el resultado, ¿tiene sentido? 

c) Indique cuál será la variación estimada en el precio de alquiler del piso con un 
dormitorio adicional de una superficie aproximada de 10 metros cuadrados, 
que mantiene fija la distancia con respecto el centro. Compare el resultado 
con su respuesta en el apartado anterior. 

d) A partir de la función de regresión muestral, obtenga el precio de alquiler 
predicho para una vivienda con 110 m 2 de superficie útil, con 2 dormitorios, 
y situado a 2 km del centro. 

é) Suponga que el precio de alquiler de la vivienda descrita en el apartado 
anterior ha acabado siendo en realidad de 1.500 euros mensuales. Calcule 
el residuo para esta vivienda. Asumiendo que el modelo estimado es cierto, 
¿cree que el alquiler del piso es excesivo? 

f) Estime el siguiente modelo econométrico e interprete todos los parámetros 
estimados: 

logiprecio ) = ft {) + ft ! log(m 2 ) + ftjogidormitorios) + f J )Mist_centro + u 
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g ) Utilizando la función de regresión muestral basada en el modelo del apartado 
/, obtenga el valor predicho de precio cuando m2 = 110, dormitorios = 2, y 
dist_centro = 2. ¿Es dicha predicción puntual mejor o peor que la obtenida 
en el apartado e)l, ¿por qué? 


Práctica 2B 


Ejercicio 2B. 1 

El siguiente modelo suele utilizarse para explicar el salario de los individuos: 

wage = [í () + f$ x age + fí 2 ediíc + fí^exper + u 

donde wage representa el salario en euros/mes, age son los años del individuo, 
educ los años de formación totales, y exper los años de experiencia en el mercado 
laboral. 

Considere que se dispone de un conjunto de datos con información sobre 
salarios, edad y años de educación (formación académica) para una muestra de 
individuos. Desafortunadamente, no se dispone de información sobre la experiencia 
en el mercado laboral. Así pues, alternativamente, se ha utilizado una medida 
de experiencia potencial, definida como exper = age - educ - 3 (los individuos 
generalmente empiezan a los tres años el colegio). Explique por qué en este caso 
no podrían estimarse los parámetros del modelo planteado. 


Ejercicio 2B.2 

Razone la veracidad o falsedad de las siguientes afirmaciones: 

a) Para poder estimar un modelo econométrico por el método de mínimos 
cuadrados ordinarios es preciso que este sea lineal en las variables. 

b) La correlación entre las variables x ey permite predecir el valor promedio de 
y conociendo los valores de x. 

c) Si la variable explicativa (x) es constante, no es posible estimar el efecto que 
la misma tiene sobre la variable dependiente (y). 

d) Hay una relación positiva entre la varianza del estimador de mco y el número 
de observaciones, por lo que al disminuir el tamaño de la muestra puede 
mejorar la eficiencia de nuestra estimación. 

é) La inclusión de un regresor irrelevante puede provocar sesgo en los 
estimadores mco si este está correlacionado con el resto de regresores 
incluidos en el modelo. 
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Ejercicio 2B.3 

Considere el siguiente modelo que explica el precio de venta (expresado en 
euros) de una lavadora (plav ) en el mercado de segunda mano en términos del 
número de usos que ha tenido ( usage ) y de la edad (age) de la lavadora: 

plav = /? 0 + fj usage + age + u 

Suponiendo que dicho modelo satisfaga los supuestos de Gauss-Markov, 
explique cuál sería el sesgo probable obtenido a partir de una regresión lineal 
simple de plav sobre usage. 


Ejercicio 2B.4 

Se dispone de los siguientes datos sobre las ventas en Lilliput de cinco marcas 
distintas de teléfonos móviles: 


Marcas 

VT 

PR 

PB 

Elephone 

10 

8 

5,5 

Nikita 

8 

12 

8,5 

Saoni 

7 

13 

9,0 

Plophon 

6 

24 

12,5 

Pepaphone 

13 

9 

6,5 


Donde, VT son las ventas anuales, expresadas en monedas de oro, PR es un 
índice de precios relativos y PB son los gastos anuales en publicidad y campañas 
de promoción, expresados también en monedas de oro. 

Tomando como base la anterior información: 

a) Estime por mco los coeficientes del modelo siguiente: VT.=fj } + [jPR + u.. 

b) Obtenga el coeficiente de determinación de esta regresión e interpreta el 
valor calculado. 

c) Obtenga el coeficiente de correlación entre PR y PB. ¿Cree que sería 
conveniente añadir la publicidad como variable explicativa adicional en 
nuestra regresión para mejorar el ajuste de la misma? Razone su respuesta. 


Ejercicio 2B.5 

Considere el siguiente modelo que describe el precio €/litro del combustible 
diésel (p_goa ) fijado por las gasolineras de una ciudad en función del número de 
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rivales cercanos 6 al que se enfrentan (gasolineras de distinta marca o rivals), y la 
distancia en kilómetros con respecto a la refinería-almacén más cercano ( distrej ): 

p_g° a = /? 0 + [ípivals + /? 2 log {distrej) + u 

a) Explique cuáles son los signos esperados de [j y [í r 

b) Utilizando una muestra de datos de corte transversal para 597 gasolineras 
valencianas (i = 1,2,..., 597) descargada a fecha del 15 de enero del 2017 del 
Ministerio de Energía, Turismo y Agenda Digital (http://geoportalgasolineras. 
es/), se ha obtenido la siguiente tabla de resultados: 


Modelo 1: Meo, usando las observaciones 1-597 
Variable dependiente: p_goa 



Coeficiente 

Desv. Típica 

Estadístico t 

valor p 


const 

1,07469 

0,0253010 

42,48 

<0,0001 


rivals 

-0,00578616 

0,00150087 

-3,855 

0,0001 

*** 

l_distref 

0,0126157 

0,00575150 

2,193 

0,0287 

** 


Media de la vble. dep. 

1,124983 

D.T. de la vble. dep. 

0,043738 

Suma de cuad. residuos 

1,096875 

D.T. de la regresión 

0,042972 

R-cuadrado 

0,037939 

R-cuadrado corregido 

0,034700 

F(2, 594) 

11,71217 

Valor p (de F) 

0,000010 

Log-verosimilitud 

1033,280 

Criterio de Akaike 

-2060,560 

Criterio de Schwarz 

-2047,384 

Crit. de Hannan-Quinn 

-2055,430 


Presente la ecuación estimada de la forma habitual e interprete los parámetros 
estimados por mco asociados a la constante y a las variables explicativas 
rivals y log {distrej). 


c ) Indique qué proporción de la variación total de p_goa viene explicada por 
rivalsy log(distref). Justifique su respuesta. 

d) Si mantenemos log ( distrej) fija, ¿cuánto tendría que aumentar el número de 
rivales ( rivals ) para disminuir el precio del combustible en 0,05 €/litro? 


6. La cercanía se ha definido trazando un radio de 500 metros sobre cada estación de servicio. 
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é) Asumiendo que el modelo econométrico inicial cumple con los supuestos 
de Gauss-Markov y sabiendo que las zonas más alejadas de la refinería- 
almacén se corresponden mayoritariamente con aquellas zonas con menor 
densidad de gasolineras, ¿cuál sería el sesgo probable que obtendríamos a 
partir de una regresión lineal simple de p_goa sobre rivalsl, ¿por qué? 
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3. Inferencia estadística 
en modelos de regresión 

Deseamos contrastar, a partir de la frm, hipótesis sobre la población. Para ello, 
además de conocer var(/3.) y E[/i] de los estimadores mco, es necesario conocer su 
distribución muestral, 7 la cual depende de la distribución de u . 


pj~Normal(pj, var(pj)) 


Supuestos RLM1-5, que garantizan la insesgadez y la 
eficiencia de los estimadores MCO: 


E(ftj) = Pj y min var(fij) 


+ 


Nuevo supuesto RLM6: 8 u~Normal{ 0, a 2 ) 
_ _ • 


Podemos llevar a cabo contrastes de hipótesis simples a través del estimador 
mco estandarizado (también conocido como estadístico t): 


se(fíj) 


donde 


se{p¡) = 



estimación 
insesgada de 

i7ar(ií ¿ |Xj) 


Se distribuye como una t de Studcnt, que depende 
del tamaño de la muestra, n, y el número de 
parámetros del modelo distintos de la constante, k. 


Su magnitud indica cuántas s.c. difiere la 
estimación puntual fij del valor hipotético pj = a¡. 
El error muestral se considera a través del s.e. 


7. La distribución muestral del estimador mco es la distribución de frecuencias de los valores /?. obtenidos a 
partir de la estimación de un modelo para cada una de las muestras aleatorias posibles de una población. 
Conocer dicha distribución muestral nos permitirá obtener, a partir de una sola muestra, la probabilidad de 
que nuestra estimación se aproxime al parámetro poblacional. 

8. Justificación: u aglutina muchos factores inobservables y diferentes. Según el teorema central del límite, 
la distribución de la suma de un conjunto de variables aleatorias independientes e igualmente distribuidas 
tiende a ser gaussiana a medida que n crece. 
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Contrastes de hipótesis simples 


1. Planteamos la hipótesis nula y alternativa sobre los parámetros poblacionales: 
Contraste de dos colas: 

H () : [i. = a. El efecto de x sobre y es igual a a., controlado el efecto de las otras x. 
Hy f}. ± a. El efecto de x. sobrey no es igual a a., controlado el efecto de las otras x. 

Contraste de cola derecha: 

H q : [j = a. El efecto de x. sobrey es igual a a., controlado el efecto de las otras x. 

El efecto de x sobrey es mayor que a , controlado el efecto de las otras x. 

Contraste de cola izquierda: 

H q : [j = a. El efecto de x sobrey es igual a a., controlado el efecto de las otras x. 
Hy Pj < a i El efecto de x sobrey es menor que a , controlado el efecto de las otras x. 

2. Construimos el estadístico t para/ij: tp. = t n-k-i 

Cuando 0. difiere lo «suficiente» del valor hipotético a., considerando el 

J A J 

error muestral, se(/3 ), entonces rechazaremos la H {] . ¿Qué entendemos por 
suficiente? 

3. Elegimos un nivel de significatividad (a), la probabilidad de cometer un error 
tipo I (rechazar la H 0 cuando realmente es cierta) que estamos dispuestos a 
asumir en el contraste. Generalmente, a = 0,1, 0,05 o 0,01. 

4. (i difiere lo «suficiente» de a , considerando se(/i.), cuando t.- ;j es más extremo 
que el valor crítico (c) que define el percentil (1 - a) en la distribución t con 
n-k -1 grados de libertad. 


5. Regla de decisión. 




f(x) 



Contraste de dos colas: 

Rechazamos H 0 cuando |t^.| > 1 

a/2/ 

/ ix- 

a \a/2 



—r tn ~ k ' 

C a/2 

■1 n 

0 C a/2 



f(x) 



Contraste de cola derecha: 

Rechazamos H 0 cuando > c£ n-fc-1 


(1- 

■a) 


i 

f(x) 

c 

) c'-y- 1 

Contraste de cola izquierda: 

Rechazamos H 0 cuando < c£ n-/c_1 

ay 

XI- 




—c n ~ 

c a 

-k-1 



6. Concluimos, indicando a qué nivel a se ha realizado el contraste. 

En vez de elegir un nivel de significatividad, alternativamente puede utilizarse 
el p-valor. Considerando el estadístico t.¡. obtenido, el p-valor es el nivel 
de significatividad más pequeño al que se rechazaría la H (] . Cuando p-valor 
<a —► rechazamos H () a un nivel de significatividad a. 
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Intervalos de confianza 


Bajo los supuestos del RLM 1-6, podemos construir un intervalo de confianza 
(ic) para el parámetro poblacional /?.: 



El límite inferior, Pj ~ c z * lse (ft) y el límite superior, Pj + C l se (Pj ) ? 
albergan el valor poblacional ¡3. en el 100 x (1-a) % de todas las muestras aleatorias 
posibles. Así pues, el ic alberga todos los valores para los que la H (> : [3 = a no podría 
rechazarse a un a (versus * a) . Útil para realizar contrastes bilaterales. 


rJ'Tl-k- 1 


Contraste de una combinación lineal de parámetros 

Sobre el modelo y = ¡3 0 + ¡3 l x { + (í 2 x 2 + + u, se desea realizar el siguiente 

contraste: 


H 0 : // - p 2 = a. La diferencia de efectos de x l y x 2 sobre y es igual a a., controlado 
el efecto de x r 

H 0 : // - fi 2 í- a. La diferencia de efectos de x f y x 2 sobre y es igual a a., controlado 
el efecto de x 3 . 

En estos casos, no podemos proceder del mismo modo que en un contraste de 
hipótesis simple, ya que las salidas de los programas habituales utilizados en los 
cursos de Iniciación a la Econometría no proporcionan toda la información necesaria 
para construir el estadístico t para una combinación lineal de parámetros: 

tp 1+ p 2 = ~ tn-k -1 donde se(ft - &) = Jvar(Á - ¡i 2 ) = Jvar(fi,) + var{(i ¿ ) - 


Así pues, se aconseja en este caso redefinir el modelo procediendo de la siguiente 
forma alternativa: 

1. Redefinimos la combinación lineal de parámetros, = ó,, y replanteamos 
el contraste en consecuencia: 

H Q :ó l = a. La diferencia de efectos de x t y x 2 sobre y (ój) es igual a a., 
controlado el efecto de x r 

H Q :ó l * a. La diferencia de efectos de x x y x 2 sobre y (ój) no es igual a a., 
controlado el efecto de x r 
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2. Dado que j3 { - ¡3 2 = <5 1? sustituimos en el modelo uno de los parámetros 
originales. Por ejemplo, sustituimos /3 { = d { + /3 2 y reordenamos expresión: 


y = fi 0 + <A+/3 2 )Xj + ft 2 x 2 + /i 3 x, + u 
y = P o + Ó l X l + P 2 ( x i +X 2> + fe + U 


3. Estimamos por mco el modelo reparametrizado que acabamos de presentar: 


9 = Po + fe + &(*i + x 2 ) + p 3 x 3 

se(P 0 ) 5e(5 x ) se{p 2 ) se(¡3 3 ) 


MCO -» 


n R 2 


4. Con la frm del modelo reparametrizado, ahora construimos el estadístico t 
para 61, el cual nos permitirá llevar a cabo el contraste de la combinación 
lineal de parámetros planteada, dado que j3 1 - ¡3 2 = ... 


<5i - a¡ 



Contraste de hipótesis múltiples 

Considerando el siguiente modelo rlmn y = /3 0 +/3 l x l + + /Cx, + u, ahora imagine 
que desea contrastar múltiples hipótesis sobre los parámetros: 

H q : = 0, /C = 0. Xj y x 2 no tienen efecto conjuntamente significativo sobre y, 
una vez controlado el efecto de x 3 . 

Hy H q no es cierta. x l y x 2 tienen efecto conjuntamente significativo sobre y, 
una vez controlado el efecto de x 3 . 

Modelo no restringido (nr): y = ¡3 Q + ¡3 ¡ x ¡ + /3 2 x 2 + /j 3 x, + u 

Modelo restringido (r) por la H Q : y = ¡3 Q + /i 3 x 3 + £ 

(modelo únicamente verdadero si la H 0 es cierta) 

Si la H 0 no es cierta, pasar del modelo nr al modelo r dará lugar a que el ajuste 
de la regresión empeore: SCE m < SCE? Así pues, la inferencia en este caso 
se basa en la tasa de variación de las sce de pasar de un modelo nr a otro r, 
ajustado por sus respectivos g.d.l.: 10 


(5CF r SC^y.)/ q 
SCE nr /(n -k-1) n “ fc_1 



10. Diferencia de g.d.l. entre modelos r y nr = (n-{k-q)-\-n+k+\) = q. 
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Bajo la H 0 , el estadístico F se distribuye como una F de Snedecor con q y n-k-l 
g.d.l. 11 ¿Por qué? Bajo el supuesto RLM1 - 6, la sce es la suma de elementos 
distribuidos como una normal... 

r _ G3.ii 2 -'2Litfyq xj/q 

£f =1 u L 2 /(n — k — l) X n 2 _ k _ r ~ * n " k - 1 

n — k — 1 

donde X 2 son distribuciones independientes Chi-cuadrado con g grados de libertad 
(g.d.1.). * 

¿Cuándo F es «suficientemente» grande como para rechazar la HJ! 


• Elegimos el nivel de significatividad a 

• Rechazamos H 0 cuando el estadístico 
F sea más extremo que el valor crítico 
(c) que marca el percentil (1 - á) de una 
distribución F con q y {n-k- 1) g.d.l. 
en el numerador y denominador, res¬ 
pectivamente. 

Téngase en cuenta que, en aquellos casos en los que los modelos sin restringir y 
restringido tienen la misma variable dependiente, el estadístico F puede expresarse 
también en términos de los coeficientes de determinación, R 2 , de cada uno de los 
modelos: 



R 2 


SCE 

STC ; 


SCE = (1 - R 2 )STC 


SCE r — SCE nr )/q 
SCE nr /(n - k - 1) 



(Fnr ~ R-r)/R 

(1 - R 2 r )/(n -k- 1) 


Advertencia: Determinadas restricciones (p. ej., HO: = 1, ft 2 = 0) pueden 
alterar la variable dependiente del modelo restringido, imposibilitando por tanto la 
utilización de esta última expresión. 


11. Este estadístico F puede utilizarse de forma similar, mediante la comparación del modelo no restringido y 
modelo restringido, para contrastar restricciones lineales como las señaladas en el apartado anterior, resul¬ 
tado de una combinación lineal de los parámetros. Por ejemplo, considerando la hipótesis nula H Q : -/? 2 = a., 
la versión restringida del modelo y = /? 0 + fl l x l + fí 2 x 2 + fi 3 x 3 + u sería y = fi 0 + aj + P 2 x x + fí 2 x 2 + /? 3 x 3 + e —► 
y ~ a ¡ = A 0 + x, + P 2 (x 2 + x,) + p 2 x 2 + e. 
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Práctica 3A 


Ejercicio 3A.1 

Considere el siguiente modelo: y = j¡ 0 + [jx n + u., donde y y x n representan, 
respectivamente, la nota de Fundamentos de Econometría y la nota media de la 
carrera de un conjunto de estudiantes i= 1,2,..., n. Con la muestra de 100 estudiantes 
del archivo «Data_marks.xlsx» se han obtenido los siguientes resultados: 


STC = ^(y¡ - y) 2 = 467,558 

t' = l 
71 

SEC = ^(5>¡ - y) 2 = 145,345 

i=l 

n 

SCE = ^úf = 322,213 

Í = 1 

n n 

2>1 - *1 )Oí -y) = ^(*;i - xjyi = 77,752 


STC^ = ^(x it - X]) 2 = 41,594 

i 

x = 6,417 

y = 5,310 


a) Con la información disponible, obtenga e interprete los parámetros estimados 
por mco del modelo planteado. 

b) ¿Tiene la nota media de la carrera un efecto sobre la nota de Fundamentos 
de Econometría? Plantee y realice el contraste a un nivel de significatividad 
del 5 %. (Nota: necesita calcular los errores estándar, s.e., asociados a los 
parámetros estimados a partir de la información disponible.) 

c ) Considere un modelo distinto, donde se han incluido como regresores 
adicionales las horas que cada estudiante ha invertido en estudiar el examen 
de la asignatura (x ) y el número de convocatorias que han consumido 
(x ¡? ). Utilizando la muestra de 100 estudiantes, se conoce la siguiente 
información: 

y¡ = -1,597 + 0,382x ¡1 + 0,042x í2 + 0,142x í3 
(0,698) ()()() 
n = 100 R 2 = 0.9206 


n 


STC] = 

JVii- X]) 2 = 41,594 

i 

n 

R 2 = 0,2598 

STC 2 = 

£(x ¡2 - x 2 ) 2 = 211.091,508 

i 

n 

R'Í = 0,2486 

STC-i = 

^(x ¡ 3 -x 3 ) 2 = 21,310 

i 

Rl = 0,0269 

SCE = ' 

n 

£ú 2 = 37,117 



i=1 
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Utilizando los datos disponibles, obtenga la información faltante referente a los 
s.e. y, posteriormente, plantee y realice un contraste de significatividad individual 
sobre el efecto parcial de las horas de estudio sobre la nota de la asignatura. 


Ejercicio 3A.2 

El siguiente modelo permite evaluar si, durante el periodo analizado (1980- 
2016), un conjunto de países han convergido en el tiempo los unos con los otros en 
términos de renta per cápita o si, por el contrario, han divergido y las diferencias 
de renta per cápita entre ellos se han agravado. 


meangr. = fi Q + fj \n(GDP_capi mo ) + u. 


donde 

• meangr. es el promedio a lo largo del tiempo de las tasas de crecimiento 
anuales del PIB per cápita (en dólares) en cada país i desde 1980 hasta 2016, 
definida como ^-¡-£[=1980 (\n(GDP_cap it ) - ln (GDP_cap it -{)) 

• ln(GDP_cap. mo ) es el logaritmo del nivel inicial del pib per cápita de cada 
país i 

Cuando los países más pobres crecen a unas tasas mayores que los países 
más ricos, entonces todos los países tienden paulatinamente al mismo nivel de 
renta per cápita en el largo plazo. Esta tendencia de convergencia se evidencia, 
entonces, cuando existe una relación inversa entre la media temporal de las tasas 
de crecimiento anuales de pib per cápita y el nivel inicial de este, [j < 0. 

La base de datos «Data covergence.gdt» (fuente: The World Bank) contiene 
información sobre el pib per cápita de 141 países desde 1980 hasta 2016, expresado 
en dólares constantes. Dichos datos se han empleado para obtener el promedio 
temporal de las tasas de crecimiento anuales de los pib per cápita de los países 
entre 1980 y 2016 (meangr.), así como el correspondiente nivel del pib per cápita 
inicial en 1980, expresado en logaritmos (ln (GDP_cap ¡mo )). Utilizando dicha base 
de datos, responda las siguientes preguntas: 

a) Compare los estadísticos descriptivos del pib per cápita de 1980 y 2016. 

b) Estime por mco la ecuación del modelo planteado en el enunciado, presente 
los resultados de la forma habitual e interprete el parámetro estimado 
asociado a ln (GDP_cap ¡mo ). 

c ) Contraste la hipótesis nula = 0 versus la hipótesis alternativa de 
convergencia H x : [j < 0. Lleve a cabo el contraste a un nivel de significatividad 
del 5 %. 
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Ejercicio 3A.3 

El siguiente modelo trata de explicar el número de hijos que tienen los 
individuos ( ceb ) en función del salario mensual percibido en dólares (, salary_dol ), 
la edad (age), los años de educación o formación ( edyrs ) y los años como fumador 
(, smokyrs ): 

ceb = fi + [j jog(salary_do¡) + fjjage) + fjjog(edyrs) + /? 3 smokyrs + u 

a) En términos de los parámetros del modelo, plantee la hipótesis nula de que los 
años como fumador no influyen sobre el número de hijos, una vez tenido en 
cuenta la influencia del salario, la edad y los años de educación. Especifique 
como hipótesis alternativa que los años como fumador disminuyen el número 
de hijos. 

b) Utilizando una muestra de 462 residentes en Colombia en 2009 extraída del 
Latín American Migration Project, se ha obtenido la siguiente función de 
regresión muestral por mco: 

ceb = —5.506 + 0.005 log(salary_dol ) + 2.335 log(age) — 0.459 log(edyrs) — 0.005 smokyrs 
(0.982) (0.067) (0.236) (0.127) (0.004) 

n = 462 R 2 = 0,249 

¿Cuál es la diferencia estimada en número de hijos entre una persona que 
nunca ha fumado y otra que lleva 60 años haciéndolo, para valores dados de 
salario, edad y educación? 

c) Lleve a cabo el contraste planteado en el apartado a) a un nivel de 
significatividad del 10 %. 

d) En base a los resultados, explique si incluiría la variable smokyrs en el modelo 
definitivo para explicar el número de hijos. 


Ejercicio 3A. 4 

Considere que desea estudiar la relación entre la producción (y) de un conjunto 
de filiales de su propiedad y los factores productivos empleados, capital ( K) y 
trabajo (L). 

a) A partir de la función de producción Cobb-Douglas Y= AK^LP, plantee un 
modelo econométrico que sea lineal en los parámetros y, por tanto, pueda ser 
estimado mediante el procedimiento de mco. 

b) La base de datos «Data_production.xlsx» contiene información para el 
número de bienes producidos en el 2018 para un conjunto de 100 filiales, en 
las que se conoce el número de trabajadores y los bienes de capital (equipos 
o maquinarias) que cada filial ha utilizado para llevar a cabo la producción 
anual. Utilizando la información disponible, estime los parámetros del 
modelo propuesto por mco. 
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c) Contraste la hipótesis nula de que existen rendimientos constantes a escala, 
es decir, H : + /? 2 = 1, frente la alternativa de que existen rendimientos 

decrecientes a escala, H: fi +0 < 1. Explique el significado de la conclusión 
alcanzada. 


Práctica 3B 


Ejercicio 3B. 1 

Considere un modelo que explica la nota obtenida en Econometría ( nota_ 
econometria ) en función de la nota media en la universidad ( notajnedia ), el 
número de convocatorias presentadas (convocatoria) y el número de tutorías que 
cada alumno ha asistido (tutorías). A continuación, presentamos la función de 
regresión muestral obtenida por mco para una muestra de 187 estudiantes (Base 
de datos: Data_marks2): 

nota_ec<mometria = -0.711 + 0.988 notajnedia - 0.226 convocatoria + 0.481 tutorías 
(1.222) (0.180) (0.256) (0.151) 

n = 187 R 2 = 0.207 

a) Calcule un intervalo de confianza al 95 % para el parámetro asociado al 
número de tutorías. 

b) Utilizando el intervalo de confianza estimado, contraste si el número de 
tutorías a las que se asiste influye sobre la nota obtenida en la asignatura 
de Econometría a un nivel de confianza del 95 %. 

c) Contraste si ú . = 0,5 a un nivel de confianza del 95 %. 

7 ' tutorías 


Ejercicio 3B.2 

Considere la siguiente ecuación que relaciona el precio de alquiler de las 
viviendas con el número de habitaciones (dormitorios), número de baños (baños), 
tamaño de la vivienda en metros cuadrados (m2), la distancia con respecto el centro 
de la ciudad (dist_centro), y el número de viviendas Airbnb que se encuentran 
alrededor (n_airbnb): u 

log(precio) = f-> () + ^dormitorios + fjbanos + fdjn2 + (jdist_centro + fjn_airbnb + u 

Utilizando la base de datos «Data_Palma_Mallorca_alquileres.gdt», la cual 
contiene información extraída de Nestoria (https://www.nestoria.com/) e Inside 
Airbnb (http://insideairbnb.com/), para una muestra de viviendas de alquiler en 


12. Se ha considerado un radio de 500 metros alrededor de cada vivienda para definir la cercanía. 
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Palma de Mallorca en fecha de 27 de agosto del 2019, se ha obtenido la siguiente 
función de regresión muestral: 


log (precio) = 6,489 - 0,015 dormitorios + 0,175 baños + 0,003 m2 + 0,030 dist_centro + 0,001 n_airbnb 
(0,078) (0,019) (0,031) (0,0004) (0.023) (0.0006) 

n = 348 SCE = 25,763 R 2 = 0,424 

a ) Plantee y realice un contraste que permita evaluar si el número de viviendas 
Airbnb cercanas es el causante del incremento del precio de los alquileres, 
ceteris paribus. 

b ) Ahora plantee y realice un contraste que permita evaluar si las características 
internas de la vivienda son relevantes de forma conjunta ( dormitorios , baños 
y mi). Para ello, sabemos que 

E"(l°g (precio¿) - /? 0 - /? 4 cList_centroi - í¡ 5 n_airhnhi ) 2 = 45,008. 


Ejercicio 3B.3 

Considere el siguiente modelo que describe el precio €/litro del diesel 
(p_goa) fijado por las gasolineras de una ciudad en función del número de rivales 
cercanos a los que se enfrentan (gasolineras de distinta marca o rivals), el número 
de gasolineras cercanas de la misma marca ( samebrand) y la distancia en kilómetros 
con respecto a la refinería/almacén más cercano ( distref): 13 

p_goa = ¡3 0 + priváis + fi 2 samebrand + ftjog( distref) + u 

Utilizando la base de datos de corte transversal para 597 gasolineras valencianas 
(i = 1, 2, ..., 597), descargada a fecha del 15 de febrero del 2017 del Ministerio 
de Energía, Turismo y Agenda Digital (http://geoportalgasolineras.es/) . se ha 
obtenido la siguiente tabla de resultados: 


Modelo 1: Meo, usando las observaciones 1-597 
Variable dependiente: p_goa 



Coeficiente 

Desv. Típica 

Estadístico t 

valor p 


const 

1,07476 

0,0247327 

43,46 

<0,0001 

*** 

rivals 

-0,00498577 

0,00147476 

-3,381 

0,0008 

*** 

samebrand 

0,0319987 

0,00598194 

5,349 

<0,0001 

*** 

log(distref) 

0,0117751 

0,00562450 

2,094 

0,0367 

** 


13. La cercanía se ha definido trazando un radio de 500 metros sobre cada estación de servicio. 
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Media de la vble. dep. 

1,124983 

D.T. de la vble. dep. 

0,043738 

Suma de cuad. residuos 

1,046384 

D.T. de la regresión 

0,042007 

R-cuadrado 

0,082224 

R-cuadrado corregido 

0,077581 

F(3, 593) 

17,70914 

Valor p (de F) 

5,08e-ll 

Log-verosimilitud 

1047,347 

Criterio de Akaike 

-2086,694 

Criterio de Schwarz 

-2069,126 

Crit. de Hannan-Quinn 

-2079,853 


a) Interprete el coeficiente estimado asociado a log (distref). 

tí) Contraste la hipótesis de que el precio del diésel fijado por las gasolineras 
no cambia con la distancia con respecto a la refinería/almacén, contra la 
alternativa de que incrementa. Realice el contraste al 1, 5 y 10 % de 
significatividad. 

c) Un informe de la Comisión Nacional de los Mercados y la Competencia 
afirma que el precio del diésel aumenta en 0,05 euros/litro por cada gasolinera 
cercana adicional de la misma marca que se instala. A partir de los resultados 
del modelo estimado, construya un intervalo de confianza al 95 % para el 
aumento del precio por cada gasolinera adicional cercana de la misma marca 
y utilícelo para contrastar la afirmación del informe. 

d) Establezca la hipótesis nula de que el efecto sobre el precio de la entrada de 
una gasolinera cercana rival más es compensado por el efecto de la entrada 
de una gasolinera cercana de la misma marca. ¿Por qué no puede usar los 
resultados del enunciado para probar la hipótesis planteada? Especifique un 
modelo que proporcione directamente el estadístico t que permita probar la 
hipótesis planteada y explique cómo realizaría el contraste. 

e) Plantee y realice un contraste de significación conjunta de la regresión 
anterior a un nivel de significatividad del 1 %. 
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4. Otras cuestiones 
relacionadas con modelos 
de regresión 

Cambio de escala en las variables 

A continuación, vamos a evaluar los cambios que sufre una frm ante cambios 
de escala 14 en las variables. 


A. Modelo nivel-nivel estimado: ^ . + + , sce = £?-, 

se(/?„) se(A) sefa) 

( y . y .) 2 R 2 = 1 ^ ^ 

^ yi) 1 

Cambio de escala 

Función de regresión muestral 

Suma de cuadrados residual y 
coeficiente de determinación 

y¿/c =ys 

9b = ^ 0 /c + ^c x ¡a + c *28 
se(Po)/ c se (Pi)/ c **(&)/ 

SCE 

— R 2 

c 2 

y a • c = y B 

y B = fo + fox u +i} 2 cx 2A 
se (Po)c se(ft)c se(fl 2 )c 

SCE ■ c 2 R 2 

*1A • C = X lB 

9a~ $0 + ^'/C *18 ^2*2 A 

se(Po) SS(A) /c se{P 2 ) 

SCE R 2 

Xu/c = *18 

9A=k + PlC *18 + kx 2 A 
se{p 2 ) 

SCE R 2 


14. Nota: utilizamos c para denotar una constante distinta de 0. 
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B. Modelo nivel-log estimad 

n . % = k + ft'og(^) + k logfe) 

*0A) *»(A) «(A) 

pn / y n2 _ -t Xf =1 (y¿ ?i) 2 

^«Cy, y,) * -i 

Cambio de escala 

Función de regresión muestral 

Suma de cuadrados residual y 
coeficiente de determinación 

yjc =y B 

S« = N c + A/c !°g(^) + A/c log(^) 

se(A)/ c -«(/i)/ c «(Á)/ c 

SCE 

T 

c 2 

£ 

II 

i 

ío = A c + A c l»g(*ií) + ftc log(x 2A ) 
se {k) c se(k)c se(k)c 

SCE'C 2 fi 2 

l°g(*u • 0 = log(* lfl ) 

S/i = \k + A l°g( c )l + A log(*M) + k x 2A 
se(p 0 + ft log(c)) se(A) se(A) 

SC£ R 2 

log(*u/c) = log(*u,) 

Sí = [A - A log(c)] + A log(x M ) + k x 2A 
se(k ~ A >og(c)) se(A) se(A) 

SCE R 2 


C. Modelo log-nivel estimado: l ° 8 ^- ) f° , + + A*m 5C£ _ j 

6 se(A) se(A) se(A) 

:r=iO»g(y.) - io g (y,))" 



R 2 = 

Xfc=,0ogCy¿)-log(y¿)) z 
S¿L 1 (log(jv’i)—l°g(y)) 2 


Cambio de escala 

Función de regresión muestral 

Suma de cuadrados residual y 
coeficiente de determinación 

>ogiyA/c) = iog(y„) 

l°g(S«) = [A“ lOg(c)] + A *1 A + k X 2A 
se(p 0 - log(c)) se(A) se(A) 

SCE 

R 2 

log(y A ■ c) = log(y B ) 

iog(y«) = [A + log(c)] + k x iA +A*m 
■«(A + log(c)) .«(A) se(A) 

SCE 

R 2 

XlA’ C = *1B 

•°g(S A )=A + Pí !c X 1B + k X 2A 
se(A) Se( A } / c se(A) 

SCE 

R 2 

X 1A/C = X 1B 

log(S/i) = A+Ac*1R + A*2/I 
«(A) se(k)c se(k) 

SCE 

R 2 
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Las interacciones entre variables explicativas en el modelo de regresión nos 
permiten modular los efectos marginales. Por ejemplo, cuando interaccionamos 
dos variables explicativas diferentes, permitimos que el efecto marginal de una 
variable (Xj) sobre la variable dependiente (y) dependa de otra variable (x 2 ): 


Ay 


y = P 0 + /? 1*1 + /? 2*2 + /? 3 * 1*2 + U , — = /?! + /? 3*2 ◄-! 

Bondad de ajuste y selección de modelos 

Anteriormente ya mencionamos que incorporar más regresores en el modelo, 
sean relevantes o no, [ SCE y f R 2 . Por este motivo, el R 2 no debe utilizarse para 
decidir si hay que agregar uno o más regresores en el modelo. 


Solución: 


• La inferencia estadística (contrate t o F, según el caso) es particularmente 
conveniente para seleccionar modelos con o sin constante y, en general, para 
comparar modelos anidados. Véase la Sección 3. Inferencia estadística en 
modelos de regresión. 

• Comparar el coeficiente de determinación ajustado (R 2 ) es conveniente para 
elegir entre distintos modelos no anidados, siempre y cuando se tenga la 
misma variable dependiente (y) y el mismo tamaño muestral{n). 


SCE 



n — 1 


El R 2 es especialmente útil cuando se quiere decidir entre regresores alternativos 
que recogen un determinado aspecto que puede explicar la variable dependiente, o 
entre regresores que representan formas funcionales diferentes. 


Práctica 4 


Ejercicio 4.1 

Considere el siguiente modelo que describe la relación entre el nivel de 
contaminación de los países y su renta (relación Kuznet medioambiental), donde 
C02c representa el nivel de contaminación medido en emisiones de C0 2 en 
toneladas métricas per cápita, y GDPc es el producto interior bruto (pib) expresado 
en millones de dólares ppp per cápita. 


C02c = + fjGDPc + fjGDPc 2 + u 
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A partir de la información disponible en la web https://data.worldbank.org del 
Banco Mundial, se han descargado datos de corte transversal sobre las variables 
de interés correspondientes al año 2014 para una muestra de 182 países (i = 1,2, 
..., 182). A continuación presentamos una tabla con los principales resultados de 
la estimación: 


Modelo 1: Meo, usando las observaciones 1-182 
Variable dependiente: C02c 



Coeficiente 

Desv. Típica 

Estadístico t 

Valor p 


const 

-0,417032 

0,341334 

-1,2218 

0,2234 


GDPc 

351,913 

36,9375 

9,5273 

<0,0001 


GDPcsq 

-3161,38 

696,8 

-4,5370 

<0,0001 



Media de la vble. dep. 

3,738123 

D.T. de la vble. dep. 

3,792689 

Suma de cuad. residuos 

968,7391 

D.T. de la regresión 

2,326360 

R-cuadrado 

0,627922 

R-cuadrado corregido 

0,623765 

F(2, 179) 

151,0410 

Valor p (de F) 

3,73e-39 

Log-verosimilitud 

-410,3978 

Criterio de Akaike 

826,7956 

Criterio de Schwarz 

836,4076 

Crit. de Hannan-Quinn 

830,6921 


a ) Calcule e interprete el efecto marginal de la renta sobre el nivel de 
contaminación. Además, según el modelo estimado, represente gráficamente 
la relación entre la contaminación y la renta, cuantificando el punto de origen 
de la frm, su pendiente y posible punto de inflexión. 

b) Según los resultados estimados, ¿cree que el modelo debería contener el 
término cuadrático como regresor? Justifique su respuesta. 

c ) El pib de Noruega y España en 2014 fue, respectivamente, 0,066 y 0,034 
millones de dólares per cápita. En base a los resultados obtenidos, indique si 
en estos dos países las políticas de desarrollo económico podrían perjudicar 
al medioambiente. Razone su respuesta. 

d) Sabiendo que 1 dólar = 0,89 euros, escriba la ecuación estimada (incluyendo 
los errores estándar y el R-cuadrado) que resultaría si expresásemos el pib en 
millones de euros per cápita, en vez de millones de dólares per cápita. 

e) A continuación presentamos tres ecuaciones estimadas a partir de la base de 
datos descrita anteriormente. Indique cuál de los modelos planteados sería 
preferible. Razone su respuesta. 
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C02c = -0,417 + 351,913 GDPc - 3161,38 GDPc 2 
(0.341) (36,938) (696,8) 


R 2 = 0,628 R 2 = 0,624 n = 182 


C02c - 0,620+ 192,628 GDPc 
(0,267) (192,628) 


R 2 = 0,585 R 2 = 0,583 n = 182 


C02c = 15,818 + 2,610 log(GDPc) 
(0,799) (0,168) 


R 2 = 0,573 R 2 = 0,570 n = 182 


Ejercicio 4.2 

Busque en la red una muestra de datos de corte transversal para dos variables 
de índole económico-empresarial que crea que puedan presentar una relación 
cuadrática. 15 Utilizando dicha muestra de datos, realice las siguientes tareas: 

á) Utilizando Excel, guarde en columnas las dos variables, nombrándolas y 
ordenándolas, junto a una variable índice i = 1, 2,... , N para representar la 
dimensión de corte transversal (p. ej., personas, países, hogares, empresas, 
etc.). No olvide indicar la fuente de donde se han obtenidos los datos, así 
como el significado de cada variable y sus unidades de medida. 

b) Utilice la teoría económica o el razonamiento lógico para justificar qué 
variable es la dependiente y cuál/es la/s explicativa/s. 

c) Utilizando Excel o Gretl, represente e interprete un diagrama de dispersión 
(gráfico X-Y) que muestre la relación entre las variables (véase la solución 
del ejercicio 0.1). 

d) Utilizando Gretl, estime por mco el siguiente modelo: y = j3 0 + (jx ] + /? 2 x 2 + u 
y exprese la función de regresión muestral resultante de la forma habitual. 
De acuerdo con los resultados obtenidos, explique cuál es el efecto marginal 
estimado de x x y. Calcule e interprete el punto de inflexión en la relación 
entre y y x . 

e) ¿Cree que el modelo debería contener el término cuadrático como regresor? 
Justifique su respuesta. 

f) Ahora someta al regresor x a un cambio de escala de su elección (p. ej., pase 
de años a meses, de euros a cientos de euros, etc.). Exprese la función de 
regresión muestral, tras el cambio de escala, explicando cómo cambiarán los 
coeficientes estimados, los errores estándar, los estadísticos t, el coeficiente 
de determinación y la sce. 


15. Posibles fuentes de datos: Gapminder (www.gapminder.org), Goolzoom (www.goolzoom.es), Institu¬ 
to Nacional de Estadística (www.ine.es), Eurostat (https://ec.europa.eu/eurostat/data/database), oecd 
(https://stats.oecd.org/), World Bank (https://data.worldbank.org/), unctadstat (https://unctadstat.unctad. 
org/), faostat (http://www.fao.Org/faostat/en/#data), otros (https://www.economicsnetwork.ac.uk/links/ 
sources, https://db.nomics.world/). 
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Ejercicio 4.3 

Considere las siguientes funciones de regresión muestral: 

y=A> + Pi x i+P x 2 
log(y) = P 0 + /Sjlogf^j) + /3 2 log(x 2 ) 

i°g(y) = A> + Á*i + fe 

o) Explique qué les sucedería a los estimadores mco, s.e. y /? 2 , basados en los 
modelos considerados, si multiplicamos por 100 todos los valores de la 
variable dependiente y. 

b ) Suponga, en vez de a), que todos los valores de x { son multiplicados por 100. 
Explique cómo se verían afectados en este caso los estimadores mco, s.e. y 
R 2 . 


Ejercicio 4.4 

Considere el siguiente modelo econométrico: 

log(precio) = + fj\og(dorm) + ¡3jog(m2) + [ J >}og(dorm) ■ log(m2) + /íjogíbanos) + u 

donde precio es el precio de venta de viviendas expresado en euros, dorm el número 
de dormitorios, m2 el tamaño de la vivienda expresado en metros cuadrados, y 
baños es el número de baños. En base a esta información, conteste a las siguientes 
preguntas: 

á) Según este modelo, ¿cuál es el efecto marginal de los dormitorios sobre el 
precio? 

b) Utilizando la base de datos con información sobre 1.300 viviendas situadas 
en Castellón que se venden a fecha de 11 de febrero del 2019 (fuente: 
Nestoria) se ha estimado la siguiente función de regresión muestral: 


log (precio) = 9,344 - 2,877 log(dorm) + 0,463 log(m2) + 0,576 log (dorm) ■ log(m2) + 0,608 log(barios) 
(0,565) (0,390) (0,133) (0,089) (0,042) 

n = 1213 R 2 = 0,590 


Interprete el coeficiente estimado asociado a la interacción. Para ello, 
considere que el piso tiene 150 metros cuadrados. ¿Y si tuviese 300 metros 
cuadrados? 

c) Contraste si el efecto de los dormitorios sobre el precio depende de los metros 
cuadrados o no. 
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5. Incorporación de variables 
ficticias en el análisis 
de regresión 

Podemos incorporar información cualitativa en el análisis de regresión empleando 
variables ficticias. Denominamos variable ficticia (o dummy ) a una variable binaria 
que toma el valor 1 para denotar que la unidad de corte transversal ipertenece a una 
determinada categoría, y 0 en caso contrario. Por ejemplo, considere el siguiente 
modelo econométrico que pretende explicar el precio de los pisos en relación a su 
tamaño y la presencia (o no) de ascensor: 

p = fi 0 + {\ml + fí 2 D au + u 

donde p es el precio del piso, m2 representa los metros cuadrados del piso y Dase 
es una variable ficticia que toma el valor 1 si el edificio tiene ascensor y 0 si no 
tiene. Ejemplo: 
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/3 2 captura la prima del ascensor, es decir, el diferencial de precios medios entre 
los pisos con versus sin ascensor, para un tamaño dado. 

P 2 = E\p\D as = 1, m2] - E[p\D as = 0, m2] 

Su relevancia estadística puede contrastarse con el estadístico t para / 32: 

• Si /1 2 = 0 —► El ascensor no es importante para determinar el precio del piso, 

ceteris paribus. 

• Si /3 2 >0 —* Los pisos con ascensor son más caros que los pisos sin ascensor, 

ceteris paribus. Caso representado gráficamente. 

• Si /3 2 <0 —* Los pisos con ascensor son más baratos que los pisos sin ascen¬ 

sor, ceteris paribus. 

Evite la trampa de la variable dicotómica: si el modelo contiene una constante, 
la inclusión de una variable dummy por cada posible categoría da lugar a un 
problema de colinelidad perfecta. Por este motivo, en el ejemplo anterior, se ha 
incluido únicamente una variable dummy para modelizar dos posibles categorías: 
con ascensor y sin ascensor. 

¿Qué ocurre si tenemos múltiples categorías? Si estuviésemos interesados en 
evaluar posibles diferencias de precios entre pisos localizados en distintos distritos 
(p. ej., centro, norte, sur, este y oeste), entonces deberíamos omitir una categoría 
para evitar un problema de colinealidad perfecta. En ese caso, un modelo válido 
podría ser el siguiente: 

P=fi o + + pp e + /5 3 D n + + ¡5p e + u 

donde • D c toma el valor 1 si el piso está en el distrito centro de la ciudad y 0 en 
caso contrario 

• D toma el valor 1 si el piso está en el distrito norte de la ciudad y 0 en 
caso contrario 

• D s toma el valor 1 si el piso está en el distrito sur de la ciudad y 0 en caso 
contrario 

• D e toma el valor 1 si el piso está en el distrito este de la ciudad y 0 en caso 
contrario 

• Omitimos la variable dummy de distrito oeste, que representará el grupo 
de referencia 

Así pues, en este caso, los coeficientes asociados a cada variable dummy, /? 2 , 
¡3 V /i., deben interpretarse en términos relativizados respecto a la categoría 

omitida. Por ejemplo, nos indicaría la diferencia de precios medios entre los 
pisos del distrito norte y los del distrito oeste (categoría de referencia omitida): 
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D c = 0 1 



D c = 0 I 

fe = E 

V 

D n = 1 0 

D s = 0' m2 

— E 

V 

D n = 0 

D s = 0' m2 



D e = 0 . 



D e = 0 . 


El estadístico t para (í, permitiría contrastar si la diferencia de precios medios 
entre pisos del distrito norte y pisos del distrito oeste es estadísticamente 
significativa a los niveles habituales. 

¿Pero qué ocurre si deseamos conocer la diferencia de precios medios entre pisos 
del distrito centro y pisos del distrito norte, para un tamaño dado? Ninguna de las 
dos categorías comparadas es la de referencia (distrito oeste). Aun así, podemos 
cuantificarlo comparando las funciones de regresión para ambas categorías: 


- 

D c = 1 



D c = 0 

V 

° n= ° m2 
D s - 0 ' 

- E 

V 

D n = 1 . 

D s = 0 ,m2 

_ 

D e = 0 . 



D e = 0 . 


= /? 2 ( 1 ) 


Para contrastar si dicha diferencia es estadísticamente significativa, sin 
embargo, la forma más sencilla sería replantear el modelo y omitir la variable 
ficticia correspondiente a la categoría respecto de la cual se desea realizar la 
comparativa: 


P-P 0 + P \ m2 + Ó 2 D C + Ó 3 D S + Ó Pe + Ó Po + U 

En este caso, el parámetro ó 2 nos indicaría directamente el diferencial de precios 
del distrito centro y pisos del distrito norte (ahora nuestra categoría de referencia, 
según el modelo replanteado), para un tamaño dado. Además, el estadístico t para 
ó 2 permitiría realizar el contraste de significatividad correspondiente. Por ejemplo, 
sen este caso los precios en el distrito centro fuesen menores que en el distrito. 
Norte (ó 2 < 0), entonces tendríamos lo siguiente: 
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Figura 5.2. Modelo de regresión con múltiples categorías 


La interacciónentre una variable continua y una variable ficticia permite que 
el efecto parcial de la variable continua pueda depender de la pertenencia o no a 
una determinada categoría. Siguiendo con el primer ejemplo sobre los pisos, ahora 
interaccionamos la variable continua m2 con la variable ficticia Dase (= 1 si el piso 
posee ascensor, 0 en caso contrario): 

p = fj () + [jpi2 + p 2 Dasc + P 3 (m2-Dasc) + u 

De este modo permitimos que el efecto parcial del tamaño del piso sobre el precio 
pueda ser distinto dependiendo de si el piso tiene ascensor o no: = Pi + P^ac- 

Si hay ascensor, /íj + /? 3 representa el efecto parcial del tamaño sobre el precio. 

Si no hay ascensor, p x representa el efecto parcial del tamaño sobre el precio. 



Figura 5.3. Modelo de regresión con una variable ficticia interaccionada 
con una variable continua 
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P 2 captura el diferencial de precios medios entre los pisos con versus sin 
ascensor, para un tamaño dado. 


/¡ ! = £[p|Z5^=l,m2]-E[p|D^=0,m2] 


Su relevancia estadística es contrastable con el estadístico t para ft r 
fj } captura la diferencia en el efecto parcial del tamaño sobre el precio entre 
pisos con y sin ascensor. Su relevancia estadística se contrastaría con el estadístico 
t para /? 3 : 

• Si /? 3 = 0 —» El efecto parcial no depende del ascensor. 

• Si P 2 > 0 —> El efecto parcial es mayor cuando hay ascensor. Caso represen¬ 
tado gráficamente. 

• Si /? 2 < 0 —> El efecto parcial es menor cuando hay ascensor. 

La interacción entre variables ficticias permite crear categorías diferentes en 
función de los valores de las ficticias y evaluar las diferencias entre estas categorías. 
Por ejemplo, considere el siguiente modelo: 

P = P 0 + PPasc + PPterr + Í^Pasc ' D ter) + T I™ 2 + U 

donde D asc es una variable ficticia que toma el valor 1 si el piso tiene ascensor y 0 
en caso contrario, D te r es una variable ficticia que toma el valor 1 si el piso tiene 
terraza y 0 en caso contrario, y m2 representa los metros cuadrados del piso. 

Así pues, para un tamaño dado de los pisos, el modelo permitirá obtener el 
diferencial de precios medios entre las siguientes categorías: 

Entre pisos con ascensor y terraza (A), versus pisos sin ascensor ni terraza (B): 

E\p\D m = 1 ,D m = l|m2] - E\p\D a¡c = 0, D m = 0|m2] =/?,+£+/!, 

Entre pisos sin ascensor y con terraza (A), versus pisos sin ascensor ni terraza (B): 


E\p\D= 0, D = 1 \m2\ - E\p\D_ = 0, D = 0|m2] = R 


Entre pisos con ascensor y sin terraza (A), versus pisos sin ascensor y con te¬ 
rraza (B): 

E \P\D asc = 1, D ter = 0|,»2] - E\p\D asc = 0, D terr = 1 \m2] =fi r fi 2 

La relevancia estadística de dichas diferencias es contrastable mediante la 
correspondiente prueba t, o prueba F, según el caso. 

Diferentes frm según categorías: Finalmente, podemos permitir que, tanto el 
intercepto como el efecto parcial de todos los regresores (/?.), puedan diferir entre 
distintas categorías. Para ello, debemos interaccionar todas las variables explicativas 
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continuas del modelo con una variable ficticia que represente la pertenencia a las 
categorías de interés. Véase, por ejemplo, la siguiente especificación: 

P = A) + + P2 WOmS + y0 Pase + yS D au' m2 ^ + Y 2 ( D m™ 0 ™) + 11 

donde se ha incluido una variable ficticia Dase que, además, se encuentra 
interaccionada con m2 y rooms. Entonces: 

• y 0 es la diferencia en el intercepto entre pisos con ascensor y pisos sin ascen¬ 
sor, 

• y es la diferencia entre pisos con ascensor y pisos sin ascensor en el efecto 
marginal del tamaño sobre el precio, 

• y 2 es I a diferencia entre pisos con ascensor y pisos sin ascensor en el efecto 
marginal del número de habitaciones sobre el precio. 

Este tipo de especificación es habitualmente utilizada para evaluar cambios 
estructurales del modelo entre categorías. En nuestro ejemplo, podríamos evaluar 
si el precio de los pisos sigue el mismo modelo para casos con ascensor y casos 
sin ascensor, planteando y realizando el siguiente contraste de significatividad 
conjunta, a través de una prueba F: 16 

H-. y 0 = 0, y, = 0, y 2 = 0 (el precio sigue el mismo modelo en ambas categorías). 

H: H () no es cierta (el precio no sigue el mismo modelo en ambas categorías). 

A este contraste se le denomina test de Chow. En Gretl, una vez estimado un 
modelo por mco (. Modelo /Mínimos Cuadrados Ordinarios ), puede llevarse a cabo 
el contraste siguiendo la ruta Contrastes / Test de Chow la venta de resultados. 


Práctica 5 


Ejercicio 5.1 

Disponemos de una base de datos que contiene información sobre los salarios 
medios percibidos por comunidad autónoma (variable salario , expresada en euros 
anuales) y por género {mujer una variable ficticia que toma el valor 1 para las 
mujeres, y 0 para los hombres). Además, la base de datos también contiene dos 
variables ficticias adicionales: sur toma el valor 1 para las comunidades del sur de 
España, cero en caso contrario; e islas toma el valor 1 para las islas, cero en caso 
contrario. Los datos son para el año 2016 sobre una muestra de trabajadores que 
residen y trabajan en España. Dicha información ha sido extraída de la Encuesta 
de Estructura Salarial del Instituto Nacional de Estadística (www.ine.es). 


16. Alternativamente, el contraste también podría realizarse estimando el mismo modelo con submuestras. 
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a) Utilizando la base de datos descrita en el párrafo anterior, interprete los 
resultados que se han obtenido tras estimar por mco la siguiente función de 
regresión muestral: 

log [salario) = 10,128 - 0,261 mujer 
(0,024) (0,034) 
n = 34 R 2 = 0,653 

b) Con los mismos datos se ha estimado el modelo cuyos resultados aparecen 
a continuación. ¿Cuál es la brecha salarial si el modelo se estima con la 
variable salario en niveles? Interprete también la constante de la regresión. 


Modelo: mco, usando las observaciones 1-34 
Variable dependiente: salario 


Coeficiente 

Desv. Típica 

Estadístico t 

valor p 

const 25.159,7 

563,300 

44,66 

<0,0001 *** 

mujer -5.808,58 

796,627 

-7,291 

<0,0001 *** 


Media de la vble. dep. 

22.255,40 

D.T. de la vble. dep. 

3.731,119 

Suma de cuad. residuos 

l,73e+08 

D.T. de la regresión 

2.322,545 

R-cuadrado 

0,624261 

R-cuadrado corregido 

0,612519 

F(l,32) 

53,16548 

Valor p (de F) 

2,75e-08 


c ) Un nuevo modelo ha sido estimado incluyendo las variables sur e islas. Indique 
si el salario medio es significativamente menor en el sur que en el resto de 
regiones en vista de los resultados obtenidos en el siguiente modelo: 


Modelo: MCO, usando las observaciones 1-34 
Variable dependiente: l_salario 



Coeficiente 

Desv. Típica 

Estadístico t 

valor p 


const 

10,1679 

0,0226799 

448,3 

<0,0001 


sur 

-0,116602 

0,0342218 

-3,407 

0,0019 


mujer 

-0,260945 

0,0284308 

-9,178 

<0,0001 

*** 

islas 

-0,109062 

0,0450551 

-2,421 

0,0218 

** 
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Media de la vble. dep. 

9.997126 

D.T. de la vble. dep. 

0,163866 

Suma de cuad. residuos 

0.206119 

D.T. de la regresión 

0,082889 

R-cuadrado 

0.767392 

R-cuadrado corregido 

0,744131 

F(3, 30) 

32.99079 

Valor p (de F) 

l,25e-09 


Ejercicio 5.2 

Considere la siguiente ecuación de gravedadpara los flujos de comercio bilateral. 
Las exportaciones del país i al país j vienen explicadas por el producto interior 
bruto (y) de i y j, y por variables geográficas y culturales, entre ellas la distancia 
geográfica (D) entre las capitales de i y j y tres variables ficticias: frontera común 
(<contig ) toma el valor 1 si los países comparten frontera y 0 en caso contrario, 
idioma común ( comlang_off) toma el valor 1 si los países tienen la misma lengua 
oficial, 0 en caso contrario y relación colonial ( col Jo ) toma el valor 1 si los países 
tienen o han tenido una relación colonial en el pasado. El siguiente modelo ha 
sido estimado utilizando el fichero de datos extraído de la base de datos de cepii 
«gravity» (www.cepii.fr) para una muestra de 17.088 flujos de exportaciones en 
2006 (http://www.cepii.fr): 

InX.. = p {) + fíjnY. + fjjn Y + PjnD.. + ftjZontig.. + fjcomlangojf.. + 6col_to.. + u 

Se ha obtenido la siguiente tabla de resultados: 


Modelo: mco, usando las observaciones 1-30569 (n = 17088) 
Se han quitado las observaciones ausentes o incompletas: 13481 
Variable dependiente: lx 



Coeficiente 

Desv. Típica 

Estadístico t 

valor p 


const 

-10,4228 

0,251091 

-41,51 

<0,0001 

*** 

InYi 

1,24696 

0,00853113 

146,2 

<0,0001 


InYj 

0,926587 

0,00825138 

112,3 

<0,0001 

*** 

LnD 

-1,36871 

0,0250859 

-54,56 

<0,0001 

*** 

contig 

1,16246 

0,124409 

9,344 

<0,0001 


coito 

0,223536 

0,193482 

1,155 

0,2480 


comlang_off 

1,18719 

0,0543500 

21,84 

<0,0001 

*** 
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Media de la vble. dep. 

1,199532 

D.T. de la vble. dep. 

4,118644 

Suma de cuad. residuos 

103530,2 

D.T. de la regresión 

2,461937 

R-cuadrado 

0,642815 

R-cuadrado corregido 

0,642690 

F(6, 17081) 

5123,366 

Valor p (de F) 

0,000000 

Log-verosimilitud 

-39638,73 

Criterio de Akaike 

79291,46 

Criterio de Schwarz 

79345,68 

Crit. de Hannan-Quinn 

79309,33 


a) Interprete los coeficientes de las tres variables ficticias. De acuerdo con los 
resultados obtenidos, ¿comercian más los países que comparten frontera, en 
comparación con aquellos pares de países que no la comparten? Cuantifique 
el efecto esperado. 

b) Se ha reestimado el modelo añadiendo una interacción entre las variables 
frontera común ( contig ) e idioma común ( comlang_ofj ), los coeficientes 
estimados para contig y (contig*comlang_off) son respectivamente 
(desviación típica entre paréntesis): 

1,513 -0,892 
(0.155) (0,236) 

Obtenga el efecto parcial sobre las exportaciones que tiene el hecho de 
compartir frontera en el modelo ampliado. 

c) Se ha reestimado el modelo añadiendo una interacción entre una variable 
continua (distancia) y la relación colonial. El coeficiente estimado para la 
interacción no es estadísticamente significativo. ¿Cómo podría interpretarse 
el resultado? 


Ejercicio 5.3 

Con los datos obtenidos del Banco Mundial (World Bank Doing Business: 
http://www.doingbusiness.org) se ha utilizado una muestra de empresas para 
Egipto en 2013 de donde se han obtenido datos de ventas anuales y de número 
de trabajadores fijos empleados. Además, con esta información se han construido 
variables ficticias indicando si las empresas de la muestra exportan o no, si están 
participadas por capital extranjero y de si el mánager principal es una mujer. 

a) Interprete los resultados obtenidos en el siguiente modelo de regresión lineal, 
donde la variable dependiente es el logaritmo de la productividad del trabajo 
(llabpro) y las variables explicativas son: la experiencia del manager (exper), 
la edad de la empresa o años de funcionamiento (age) y dos variables ficticias 
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que indican si la empresa exporta ( exporter ), y si está participada por capital 
extranjero (foreign ). 


Modelo: mco, usando las observaciones 1-2897 (n = 2408) 
Variable dependiente: llabpro 



Coeficiente 

Desv. Típica 

Estadístico t 

valor p 


const 

11,3169 

0,0619118 

182,8 

<0,0001 


age 

-0,0126260 

0,00205075 

-6,157 

<0,0001 


exporter 

0,605089 

0,0743340 

8,140 

<0,0001 


exper 

0,00567645 

0,00271938 

2,087 

0,0370 

** 

foreign 

0,191541 

0,102156 

1,875 

0,0609 

* 


Media de la vble. dep. 

11,31505 

D.T. de la vble. dep. 

1,418927 

Suma de cuad. residuos 

4632,163 

D.T. de la regresión 

1,388401 

R-cuadrado 

0,044155 

R-cuadrado corregido 

0,042564 

F(4, 2403) 

27,75154 

Valor p (de F) 

l,47e-22 

Log-verosimilitud 

-4204,494 

Criterio de Akaike 

8418,987 

Criterio de Schwarz 

8447,920 

Crit. de Hannan-Quinn 

8429,511 


b ) También se han generado variables ficticias a partir de la variable tamaño de 
la empresa ( size_cat ), que clasifica las empresas en tres categorías (grande 
= cat_l, media = cat_2, pequeña = cat_3) según el número de trabajadores. 
Interprete los resultados obtenidos tras estimar el siguiente modelo 
ampliado: 


Modelo: mco, usando las observaciones 1-2897 (n = 2408) 
Variable dependiente: llabpro 



Coeficiente 

Desv. Típica 

Estadístico t 

valor p 

const 

11,2183 

0,0661558 

169,6 

<0,0001 *** 

age 

-0,0128235 

0,00205792 

-6,231 

<0,0001 *** 

exporter 

0,526498 

0,0787440 

6,686 

<0,0001 *** 

exper 

0,00444900 

0,00272845 

1,631 

0,1031 
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Coeficiente 

Desv. Típica 

Estadístico t 

valor p 

foreign 

0,167975 

0,102540 

1,638 

0,1015 

size_cat_l 

0,263253 

0,0644453 

4,085 

<0,0001 *** 

size_cat_2 

0,239197 

0,0833670 

2,869 

0,0042 *** 


Media de la vble. dep. 

11,31505 

D.T. de la vble. dep. 

1,418927 

Suma de cuad. residuos 

4596,945 

D.T. de la regresión 

1,383689 

R-cuadrado 

0,051422 

R-cuadrado corregido 

0,049052 

F(6, 2401) 

21,69299 

Valor p (de F) 

5,89e-25 

Log-verosimilitud 

-4195,305 

Criterio de Akaike 

8404,610 

Criterio de Schwarz 

8445,115 

Crit. de Hannan-Quinn 

8419,343 


c ) ¿Por qué se han creado dos variables ficticias en lugar de tres? Interprete los 
coeficientes de las variables _cat_l y Dsize_cat_2. 

d) Indique cuál puede ser la razón por la cual las variables exper y foreign dejan 
de ser estadísticamente significativas en el modelo anterior. 


Ejercicio 5.4 

Busque en la red una muestra de datos de corte transversal para tres 
variables continuas de índole económico-empresarial que crea que puedan estar 
relacionadas. 17 Utilizando dicha muestra de datos, realice las siguientes tareas: 

a) Utilizando Excel, guarde en columnas las cuatro variables, nombrándolas y 
ordenándolas, junto a una variable índice i = 1, 2,... , N para representar la 
dimensión de corte transversal. No olvide indicar la fuente de donde se han 
obtenidos los datos, así como el significado de cada variable y sus unidades 
de medida. Adicionalmente, construya una cuarta variable ficticia que tome 
el valor 1 o 0, según si los individuos ide la muestra pertenecen o no a 
cierta categoría (e.g., género, raza, nacionalidad, continente, sector, países 
desarrollados, idioma, etc.) 

b) Estime por mco e interprete la correspondiente frm basada en un modelo 
tipo: 


17. Posibles fuentes de datos: Gapminder (www.gapminder.org), Goolzoom (www.goolzoom.es), Institu¬ 
to Nacional de Estadística (www.ine.es), Eurostat (https://ec.europa.eu/eurostat/data/database), oecd 
(https://stats.oecd.org/), World Bank (https://data.worldbank.org/), unctadstat (https://unctadstat.unctad. 
org/), faostat (http://www.fao.Org/faostat/en/#data), otros (https://www.economicsnetwork.ac.uk/links/ 
sources, https://db.nomics.world/). 
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Y=J3 0 +^X 1 +^ 2 X 2 + Y 0 D + w (bl), 

donde 7 representa la variable dependiente, X y X 2 las variables explicativas 
continuas, y D una variable explicativa ficticia. Utilice la teoría económica o el 
razonamiento lógico para justificar qué variable es la dependiente y cuál/es la/s 
explicativa/s. 

c) Basándose en el modelo (bl) anteriormente propuesto, plantee, explique y 
realice un contraste de significatividad global de la regresión. 

d) Basándose en el modelo (bl) anteriormente propuesto, plantee, explique y 
realice un contraste de Chow. 

é) En base a las variables de las que se dispone, plantee y estime un modelo que 
le permita contrastar si el efecto marginal de X 2 sobre Y depende o no de la 
pertenencia de i a una de las categorías recogidas por la variable ficticia D. 

el. Plantee y realice dicho contraste. 

e2. Represente gráficamente la relación entre Y y X 2 , según el modelo 
estimado. 
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Soluciones de muestra 


Solución ejercicio 0.1. 

a ) Datos de corte transversal, dado que el archivo contiene información para 
distintas viviendas en un momento del tiempo determinado. 

b) Ruta: Click derecho sobre la variable precio / distribución de frecuencias. 

Agrupamos los precios de las viviendas en intervalos excluyentes del mismo 
grosor para, posteriormente, determinar el número relativo de observaciones 
que hay en cada uno de ellos. 



0 S00 1000 1500 2000 2500 


Intervalos 


Distribución de frecuencias para precio, observaciones 1-387 
nombre de cajas = 19, media = 195,642, desv.tip.=234,993 


intervalo punto medio frecuencia reí acum. 


< 

136,78 

68,392 

223 

57,62% 

57,62% 

136,78 - 

273,57 

205,18 

96 

24,81% 

82,43% 

273,57 - 

410,35 

341,96 

25 

6,46% 

88,89% 

410,35 - 

547,13 

478,74 

15 

3,88% 

92,76% 

547,13 - 

683,92 

615,53 

10 

2,58% 

95,35% 

683,92 - 

820,70 

752,31 

6 

1,55% 

96,90% 

820,70 - 

957,48 

889,09 

8 

2,07% 

98,97% 

957,48 - 

1094,3 

1025,9 

0 

0,00% 

98,97% 

1094,3 - 

1231,1 

1162,7 

2 

0,52% 

99,48% 

1231,1 - 

1367,8 

1299,4 

0 

0,00% 

99,48% 

1367,8 - 

1504,6 

1436,2 

0 

0,00% 

99,48% 

1504,6 - 

1641,4 

1573,0 

1 

0,26% 

99,74% 

1641,4 - 

1778,2 

1709,8 

0 

0,00% 

99,74% 

1778,2 - 

1915,0 

1846,6 

0 

0,00% 

99,74% 

1915,0 - 

2051,8 

1983,4 

0 

0,00% 

99,74% 

2051,8 - 

2188,5 

2120,1 

0 

0,00% 

99,74% 

2188,5 - 

2325,3 

2256,9 

0 

0,00% 

99,74% 

2325,3 - 

2462,1 

2393,7 

0 

0,00% 

99,74% 

>= 

2462,1 

2530,5 

1 

0,26% 

100,00% 


Por defecto, los datos se han agrupado en 19 intervalos, que es el número 
próximo a n, donde n es el número de viviendas (387). El punto central del 
primer y último intervalo se corresponden, respectivamente, con los valores 
mínimo y máximo de la muestra de precios. 

• Casi el 60 % de los pisos de la muestra tienen un precio de venta < 136.780 €. 

• Casi un 25 % de los pisos de la muestra tienen un precio > 136.780 € y 
<273.570 €. 

• Solamente un piso tiene un precio > 2.462.100 €. 

c ) Los estadísticos descriptivos ayudan a retratar tres propiedades importantes de un 
conjunto de datos: la posición, la dispersión y la forma de su distribución. 
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Ruta: Click derecho sobre la variable precio / estadísticos principales. 


Medidas de posición 
Media= 

n 1-1 n 


precio = 195.640 € 
rñ2 = 118,59 m 2 


Mediana: Valor central de la distribución de datos Me(precio¿) - 123.000 € 

ordenados. Me(m2 t ) = 100 m 2 


Medidas de dispersión 

Rango o recorrido: Max — Min 

Desviación típica: sd(x) = s x = 


rango(preciOi) = 2.462.100 € 
rango(jn2[) = 881 m 2 


Spreclo = 234.990 


s m ¿ = 80,119 m 2 


€ 


Cuanto más concentrados están los datos alrededor de x, entonces el rango(x.) 
y s x estarán más próximos a 0. En estos casos, las medidas de posición serán más 
representativas del conjunto de observaciones. 

Inconveniente. El rango y la desviación típica dependen de las unidades de 
medida de la variable analizada, lo cual dificulta la comparación de la representa- 
tividad de dos conjuntos de datos expresados en unidades distintas. 

Solución. Coeficiente de variación (CV): — si x =£ 0 


14 


precio 


1,201 > 1 -> s precio > precio 


La media es poco representativa 
del conjunto de datos. 


CV m2 = 0,676 < 1 -* s m2 < m2 


La media es representativa del 
conjunto de datos. 


Medidas de forma 


Coeficiente de asimetría 


vl3 


CA =• 


ñId=i(Xi-x) 


i 


'Z? =1 ( Xi -xy 

n 


Si CA = 0 -» x = Me(x ) 


Datos distribuidos 
simétricamente alrededor x. 




rv - ^ ha s \ La cola derecha de la 
Si CA > 0 -> x > Me(x) 

v y distnb. i 


Si CA < 0 -> x < Me(x ) 
CA(preciOi ) = 4,207 > 0 y CA(m2i) = 6,116 > 0 


. es más larga. 


La cola izquierda de la 
distrib. es más larga. 


X 
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El exceso de curtosis mide la mayor o menor concentración de datos alrededor 
de x, versus alrededor de las colas. El nivel de referencia es el correspondiente a 
una distribución normal (3). 


Si EC - 0 Dist. normal 

Si EC > 0 Dist. leptocúrtica 

Si EC < 0 Dist. platicúrtica 
ECipreciOi ) = 27,583 > 0 y EC(m2i ) = 53,296 > 0 


EC - 


5zr=i(*i - *) 


v^4 


n 


ir = i (*¡-¿) 2 

n 


-3 



d) Ruta: Ver / Gráficos múltiples / Gráficos X-Y (scatters) 



m2 


Los pisos más grandes (peque¬ 
ños) se corresponden mayorita- 
riamente con aquellos pisos más 
caros (baratos). 


e) Ruta: Selecciona variables de interés / click derecho / Matriz de correlaciones 


ni 2 

dormitorios 

precio 


1,0000 

0,6608 

0,5534 

m2 


1,0000 

0,4476 

dormitorios 



1,0000 

precio 


La tabla está mostrando el coeficiente de correlación muestral de Pearson entre 
cada pareja de variables consideradas: 
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Pxy 


£¿ii (*¿-*)(y¿-y) 


s xy _ 


7i-: 

L 

S x Sy 


£ f =1 (*¿-*) 2 

Sf = 1 ( y ¿- y ) 2 



n-i ^ 

n-i 


donde -1 < r xy < 1 


• Si r =1—»■ Relación lineal positiva perfecta entre x e y. 

• Si r = 0—» No relación lineal entre iej, aunque puede existir una relación 

no lineal. 

• Si r =-!—>• Relación lineal inversa perfecta entre x e y. 


Tal y como podemos ver en la matriz de correlaciones, se aprecia una relación 
lineal positiva relativamente fuerte entre los m2 y el precio (r , . = 0,553 > 0,5). 

1 J r v mi precio 7 7 ' 

En cambio, dormitorios y precio presentan una relación lineal positiva, relativa¬ 
mente débil (r, . . . = 0,448 < 0,5). 

v dormitorios precio 7 7 7 


Solución ejercicio 1A.1. 

a) Ruta Excel: Insertar / Gráfico X Y (Dispersión) 


200 


0> 

.1 150 
o 
a 
■+-> 

Ü loo 


• • 


50 


50 100 150 

P (euros/noche) 


Se aprecia una relación inversa 
entre el precio y el número de ha¬ 
bitaciones ocupadas. Aquellos ho¬ 
teles con precios más altos (bajos) 
ocupan menos (más) habitaciones. 


b) 



X. 

i 

y¡ 

(x.-x) 

(y-y) 

(x.-x)O.-j) 

(x-xy mm 

hotel (id) 

p. 

i 

Q, 

(P-P) 

(Q-Q) 

(P-P) (Q-Q) 

(P-P ) 2 

1 

35 

150 

-40 

57,5 

-2300 

1600 

2 

100 

20 

25 

-72,5 

-1812,5 

625 

3 

90 

50 

15 

-42,5 

-637,5 

225 

4 

115 

10 

40 

-82,5 

-3300 

1600 
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X. 

1 

y¡ 

(X.-X) 

(y-y) 

(x.-.v)0’->’) 

(x-x) 2 

hotel (id) 

p 

l 

Q, 

(P-P) 

(Q-Q) 

(P-P) (Q-Q) 

(P-P ) 2 

5 

70 

100 

-5 

7.5 

-37.5 

25 

6 

60 

130 

-15 

37.5 

-562.5 

225 

7 

50 

180 

-25 

87.5 

-2187.5 

625 

8 

80 

100 

5 

7.5 

37.5 

25 


p 

75 


Q 

93 


i’UiPi-pm-Q) 

- py 

-10800 

4950 


ñ Z;UP,-P)(9,-9) -10800 

^ 4950 2,1818 

p 0 = Q - p^P = 93 -(-2,1818)75 = 256,1364 


Función de regresión muestral: Q = 256,1364 - 2,1818 P 
Si el precio por noche fuese de 0, se estima que serían ocupadas 256 habitaciones. 
Ante un aumento del precio de un 1 €/noche, se estima que el número de 
habitaciones ocupadas disminuiría en 2,1818 unidades. 


c) 


A P 

A Q 


1 €/noche 

- 2,1818 habitaciones ocupadas 


10 €/noche 

- 21,818 habitaciones ocupadas 


d) 



X. 

1 

y i 

Valores ajustados 

y 

Residuos 

M=6 7 -r9 

hotel (id) 

p 

l 

Q, 

Qi 


1 

35 

150 

Q =256,1364+(-2,1818)-35=179,773 

-29,773 

2 

100 

20 

Q= 256,1364+(-2,1818)-100=37,955 

-17,955 

3 

90 

50 

(93=256,1364+(-2,1818)-90=59,773 

-9,773 
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X. 

1 

y, 

Valores ajustados 

y t 

Residuos 

úrfy-y) 

hotel (id) 

p 

l 

Q, 

Qi 


4 

115 

10 

Q= 256,1364+(-2,1818)-115=5,227 

4,773 

5 

70 

100 

Q =256,1364+(-2,1818)-70=l 03,409 

-3,409 

6 

60 

80 

g=256,1364+0-2,1818)-60=l 25,227 

4,773 

7 

50 

200 

Q =256,1364+0-2,1818)-50=147,045 

32,955 

8 

80 

100 

g 8 =256,1364+(-2,1818)-80=81,591 

18,409 

é) Coeficiente de determinación: 


R 2 = 1 - 

SCE 

STC 

donde 

SCE = Y? =1 Üf y STC = 

£”=i(y¿ - y) 2 


X. 

i 

y, 

Residuos al cuadrado 

o-j) 2 i 

hotel (id) 

p, 

Q, 

ü 2 

l 

(Q-Q? 

1 

35 

150 

-29,7732 = 886,415 

3.306,25 

2 

100 

20 

-17,9552 = 322,366 

5.256,25 

3 

90 

50 

-9,7732 = 95,506 

1.806,25 

4 

115 

10 

4,7732 = 22,779 

6.806,25 

5 

70 

100 

-3,4092= 11,622 

56,25 

6 

60 

80 

4,7732 = 22,779 

1.406,25 

7 

50 

200 

32,9552= 1.086,002 

7.656,25 

8 

80 

100 

18,4092 = 338,895 

56,25 



Sf=i( yi-y) 2 

2786,364 

26350 


Entonces, R 2 = 1 - = 0,8943 

26350 

El 89,43 % de la variabilidad muestral exhibida por la demanda es explicada 
por el precio. 
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f) Q = 256,1364 - 2,1818 75 = 92,5 habitaciones ocupadas 

g) Elasticidad precio de la demanda estimada para un precio de 75 euros/noche: 



A Q P_ 

ap'q 


- 2,1818 


75 

92^5 


- 1,769 


Para un precio de 75 euros/noche se estima que, ante un aumento del 1 % del 
precio, el número de habitaciones ocupadas disminuirá un 1,769 %. 


Q 


P 



h) Modelo log-log: log(0.) = p ( + fí^ogiP) + u 

En este caso, el parámetro // ] nos indicaría directamente la elasticidad precio 
de la demanda (constante). El modelo representaría una función de demanda 
isoelástica; es decir, con una elasticidad constante con independencia del nivel de 
precios: 



P 
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Solución ejercicio 2A.1 

a) y = [i (] + fiy + u Modelo lineal en parámetros y en las variables 

b) log (y) = x + u Modelo lineal en parámetros, no lineal en variables 

c) y = 1 V /? i x i u - Modelo lineal en las variables, no lineal en parámetros 

d) y = S ] x^e u Tras transformación logarítmica, modelo lineal 

en parámetros pero no lineal en variables: 
log(y) =/? 0 + ^log(x) + m 

e) y = A, + P 2 X + Py* 2 + 11 Modelo lineal en parámetros, no lineal en las variables 

./)}’ = P] + /t Ct) + Ll Modelo lineal en parámetros, no lineal en las variables 
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